
单核苷酸多态性(SNPs)主要是指在基因组水平上由单个核苷酸的变异(碱基的转换或颠换、插入或缺失)所引起的DNA序列多态性。它是人类可遗传变异中最常见的一种。大多数的功能性非编码SNPs可以通过干扰转录因子的结合和调控元件的功能来改变基因的表达,从而发挥其作用。值得注意的是,这些调控元件具有高度的细胞类型特异性,这提示SNPs的功能性也有细胞类型特异性。因此需要在正确的组织和区域背景下对每一种细胞类型中活跃的调节元件进行分类和功能揭示,结合其所形成的调控网络,进而帮助阐明常见神经退行性疾病分子发病机制中的基因风险位点功能的重要性。
近年来,多组学技术尤其是表观染色质状态和三维结构测序技术得到了飞速发展与广泛应用,这对解析这些非编码区域变异的调控机制带来了新的契机。为系统解析调控网络对非编码遗传变异的影响,研究团队基于团队之前研发的DeepExpression模型,进一步整合序列数据、HiChIP三维基因组数据及GEEK模型调控网络数据的低维向量表示((lowdimensionalemedding),提高了对基因表达的预测能力。下游研究结果表明,整合序列数据、三维基因组数据和调控网络数据,能更好地理解转录调控机制和非编码变异的功能,为更精准解释GWAS遗传变异提供了新的方法。
南开大学软件学院为本文第一单位,南开大学软件学院讲师曾婉雯和斯坦福大学博士后信晶雪为共同第一作者,清华大学长聘副教授江瑞和中科院数学所王勇研究员为论文的共同通讯作者。该研究已得到国家自然科学基金青年项目资助、国家重点研发青年科学家项目资助。(软件学院供稿)
论文链接:https://www.nature.com/articles/s42256-021-00371-6