删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

农学院沈星星研究员和陈学新教授课题组在Nature Communications发文揭示进化树“再现性危机”

本站小编 Free考研考试/2021-04-05

近日,浙江大学农业与生物技术学院沈星星研究员、陈学新教授以及美国范德堡大学Antonis Rokas教授课题组联合在Nature Communications发文阐明:系统发育树存在~9% -18%的不可重复性危机。
研究结果可重复或可再现性是科学界的基石。在过去的几年里,科学家对已发表结果可重复性的担忧不断增加,导致了“再现性危机”一词的出现。系统发育树是进化生物学研究的基础。例如,系统发育树通常被用来研究基因、基因组、物种的演化过程。2013年报告称:由于缺乏数据公开化,6277 / 7539(83.3%)研究课题的系统发育树是不可重复的。这一研究促使了多个公共存储数据库的诞生(如figshare)。

公共数据库提供的信息是否足够系统发育树的重复构建?此外,系统发育树的构建参数、计算资源(CPU处理器型号、线程数等)均存在差异。这些差异是否会导致不可重复的系统发育树?什么原因导致不可重复的系统发育树? 如何规避不可重复危机?回答这一系列问题有利于提高系统发育树的再现性,同时为系统发育学软件开发者提供重要的指导依据。
本研究收集了15个动物、植物、真菌系统发育基因组学数据集(总共19414个基因比对数据)。这15个数据集包含非编码DNA (DNA)、外显子(DNA)、氨基酸(AA)三类数据集。基因平均长度约620位点,平均包含180个物种。基于19414个基因数据集,我们检验了常用系统发育树构建软件IQ-TREE和RAxML-NG可重复性。对每一个基因,运行两次完全相同的参数(Run1和Run2),并比较Run1和Run2产生的系统发育树是否一致(图A)
研究结果表明:IQ-TREE和RAxML-NG分别存在81.9%和90.7%的系统发育树可重复。比较IQ-TREE和RAxML-NG之间,仅20.3%系统发育树可重复(图B和C)。利用UCE、AHE等捕获技术收集的数据存在更高比例的不可重复性。总结:计算资源差异(如CPU数目差异、CPU型号差异)、不同初始随机数以及系统发育信号低的基因等因素更易产生不可重复的系统发育树。

我们如何提高系统发育树的可重复性?考虑到系统发育基因组数据集中存在的成百上千个基因,一个更实用的方是公布每个分析的日志文件。因为日志文件包含所有关键参数(例如基因名、程序名、树搜索的数量、替代模型、处理器类型、线程数量和随机起始数)。
浙江大学农学院沈星星研究员为论文第一作者兼共同通讯作者,美国范德堡大学Antonis Rokas教授为共同通讯作者。陈学新教授对该研究给予了大力支持和悉心指导。另外,范德堡大学和威斯康星大学麦迪逊分校的李远宁博士后、Chris Hittinger教授也参与了该研究。该研究受到中央高校基本科研业务费专项、浙江大学“****”研究员启动资金资助、国家自然科学基金国际联合重点研究项目(No. 31920103005)和国家自然科学基金重点项目(No. 31702035)支持。
原文链接:https://www.nature.com/articles/s41467-020-20005-6
(昆虫科学研究所供稿)





相关话题/系统 数据 基因 浙江大学 公共