
随着全基因组关联分析的发展,如何从海量数据中获取有效信息已成为人们普遍关注的问题,而传统的方法还不能完全解决诸如检测上位性这样的问题。以往的上位性研究主要集中于单一表型的局部信息,而在本文中,我们开发了一个两阶段全局搜索算法以实现对有向无环图的全局搜索,从而在病例对照设计中识别与多个表型的全基因组上位性交互作用。GESLM结合了基于评分的方法和基于约束的方法来学习与表型相关的贝叶斯网络,在探索同时存在表型的遗传关联和基因交互作用的复杂结构方面具有较高的稳定性。

在正负样本平衡和非平衡的病例对照数据集上检测多个表型的上位性交互作用方面,GESLM在提高识别效率和降低误报率方面具有较高的性能,在准确性和时间复杂度之间取得了平衡,并用图而非树或者集合的形式呈现搜索结果,从而提供了更多的潜在信息。在模拟实验结果表明,与其他常见的基因组关联检测算法相比,GESLM提高了准确率和效率,尤其是在正负样本不平衡的病例对照研究中。在英国生物库(UK Biobank)数据集上的应用表明,GESLM算法在处理具有多个表型的全基因组关联数据时表现较好。


本研究获得国家自然科学基金(11901387)、上海市哲学社会科学规划项目(2018EJB006)的资助。
文章链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab276/6329404?guestAccessKey=e4340cec-11c4-41a0-bc3f-6780243a6517