现代社会的科学技术进步离不开大数据,林木育种工作尤其需要收集大数据,并对之进行分析、整合与提炼。由于各种自动化或半自动化技术的革新,人们已能够对一个复杂系统进行多层次、全方位、宽领域的信号收集与追踪。这一过程产生了海量数据。如何从这些数据中挖掘、提炼出决定系统变化的自然规律与法则,是一项高难度而又极端重要的大课题。
大数据的重要特征,是数据包含几十个、几百个、甚至成千上万个变量。比如,在林木遗传学领域,全基因组关联分析往往有几十万,甚至几百万个基因位点,对这些位点同时进行分析,有助于人们完整地、准确地、系统地解析林木生长、抗逆性的遗传控制机理。最常用的多变量数据分析方法,是KarlPearson在1901年提出的主成分分析(PCA)。这一方法是从高维度相关变量中,寻找少数几个能解释整个数据结构并且相互独立的主成分,利用这些主成分描述系统的主要特征。但是,作为在各行各业广为应用一个多世纪的主流方法,PCA却存在致命的缺点,就是它无法对变量因果关系进行系统的推断。这一缺点正严重制约大数据本身所具有的对揭示事物客观规律所起的独特作用的发现。
论文作者首次把博弈论引入大数据分析,提出多组非线性洛特卡-沃尔泰勒(Lotka-Volterra)捕食方程,通过组装多种数学与统计算法,构建了多层次(multilayer)、宏观与微观相交错(macro- and microscopic intertwining)、时间与空间相纠缠(spatiotemporal entanglement)的立体因果网络。论文作者引进热力学第二定律,首次攻克了利用静态数据构建动态网络的世界性难题,通过捕获网络快闪(network snapshot), 实现了对大数据进行有效利用的“一时一网”、“一物一网”、“一态一网” 、 “一人一网”的重要设想。
美国著名物理学家D. K. Campbell对论文给予高度评价,认为文中所提出的新理论改变了人们对大数据作用的认识,所提出的方法将对包括生物学、医学、药物设计学、社会学、经济管理学、工程学、环境科学等在内的众多学科产生重要影响,并对促进物理学与其他学科的交叉融合产生重要推动作用。
论文作者是北京林木分子设计育种高精尖创新中心首席科学家邬荣领和青年研究员姜立波。
论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0370157321000478