Research progress in machine learning methods for gene-gene interaction detection
Zheye Peng, Zijun Tang, Minzhu Xie
编委: 赵方庆
基金资助: |
Editorial board:
Fund supported: |

Zheye Peng, Zijun Tang, Minzhu Xie.
全基因组关联研究(genome wide association studies, GWAS)在全基因组范围内检测DNA变异与特定疾病或者性状之间的相关性,进而发现与之相关的遗传变异。目前,全基因组关联研究已经发现了与各种疾病或性状(表型)相关的数千个单核苷酸多态性(single nucleotide polymorphism, SNP)位点。然而,对于绝大部分复杂疾病而言,这些SNP位点上的变异导致的患病风险增加往往较小,即只有少部分人可以用这些位点上的变异解释其患病状态,这种现象被称为“遗传性缺失(missing heritability)”[1]。对于这种现象,研究人员提出了多种解释,其中被广泛认同的解释是:复杂疾病是由基因与基因,基因与环境之间的交互作用引起的,其中基因与基因的交互作用通常表现为SNP位点的上位性效应,即两个或两个以上的SNP位点对表型具有协同影响[2]。单个SNP通过改变单个基因的表达对疾病发病率的影响通常会很小,新出现的证据表明,许多稀有的DNA变异与多个风险等位基因的交互作用会导致患病风险增加[3]。而目前的全基因组关联研究主要探测单个SNP位点与疾病的相关性,缺乏探测多个基因交互作用的能力。
探测基因交互作用有助于识别基因功能,对发现潜在的药物靶点和人类复杂疾病的遗传机理尤为重要[4]。探测基因交互作用通常采用的方法是计算多个SNP位点上的等位基因组合与表型的统计相关性。但随着交互作用基因数目的增加,对应SNP位点上可能的等位基因组合数量呈指数增长,假定每个SNP位点上可能的基因型不同取值为3,则n个SNP位点上不同的基因型组合数量高达3n。探测高维基因交互作用在计算上面临巨大的挑战[5]。机器学习(machine learning, ML)是让计算机模拟人类认知过程对问题进行求解的一种方法,利用机器学习方法探测基因交互作用的优点是不需要事先假定位点或基因间交互作用的模型,不是通过穷尽搜索而是让模拟人类认知过程的计算机算法通过大量数据进行学习,从而获得发现非线性高维交互作用的能力[6]。近20年来,众多机器学习方法已被用于基因交互作用探测,并取得了一定的成功[7],然而遗传异质性、群体分层和涉及交互作用的SNP位点数量众多是影响机器学习方法探测基因交互作用性能的主要因素。本文将对探测基因交互作用的机器学习方法进行综述,并对未来研究方向进行展望。
1 机器学习方法的原理和特点
在过去的20年中,一系列机器学习方法被用来探测基因与基因的交互作用。目前,已经应用于基因交互探测的机器学习方法主要包括神经网络(neural networks, NN),随机森林(random forest, RF),支持向量机(support vector machines, SVM)和多因子降维法(multifactor dimensionality reduction, MDR),本节将综述这些机器学习方法的原理和特点,及其在基因交互作用的探测上取得的一些成果。1.1 神经网络
构建合适的神经网络内部权重结构是探测基因与基因交互作用成功的关键。目前神经网络内部权重的构造方法有反向传播(back propagation, BP)、遗传编程(genetic programming, GP)和语法演化(grammatical evolution, GE)[14,15,16,17,18]。Ritchie等[15]比较了遗传编程神经网络(GPNN)和反向传播神经网络(BPNN)探测基因与基因交互作用的能力,其结果表明当测试数据包含功能性和非功能性的SNPs时,GPNN表现优于BPNN[16]。Motsinger等[17]也对GPNN探测基因-基因交互作用的能力进行了测试:对1600个样本(case和control各占1/2, SNP位点总数为10个)中的2个SNP位点交互作用的探测结果显示,GPNN对遗传效应(heritability)低至0.5%的基因-基因交互模型的探测能力也达到了86%;在真实的帕金森病的数据上GPNN也探测到线粒体基因与性别(mitochondrial gene-sex)的交互作用,该交互作用导致帕金森病发病率显著上升。Campos等[18]利用语法演化技术对GPNN进行改进提出了GENN神经网络,用于存在噪声情况下基因-基因交互作用的探测。GENN利用进化搜索策略,并在语法中使用布尔运算,在模拟数据上的测试显示GENN在处理基因分型错误和数据遗漏等问题上具有很强的鲁棒性。
1.2 随机森林
随机森林是由Leo Breiman提出[19],是一种由随机向量生成的分类树或回归树的集合所构成的高维非参数预测模型,包括4个主要部分:随机选择样本;随机选择特征;构建决策树;随机森林投票分类。随机森林通过自助法(bootstrap)重采样技术进行采样,给定一个训练样本集,数量为N,使用有放回的采样得到N个样本,从而构成一个新的训练集。随机森林的优点在于它们不会“过度拟合(overfit)”数据,随着随机森林中的树的数量增加,预测误差将不会超过一个给定值[20]。随机森林为每个SNP提供重要性分数,使其能识别与表型相关的SNPs,进而探测交互作用的SNPs[21]。随机森林方法在基因交互作用的探测中有很多成功的应用[21,22,23,24,25]。Chen等[23]使用随机森林方法对遗传性球形细胞增多症(hereditary spherocytosis, HS)的相关数据进行分析,探测到了41个已知的与HS相关的基因,发现了150个新的与HS相关的基因及这些基因构成的交互网络中的核心基因。Bureau等[24]利用随机森林从131个哮喘病人和217 个正常人的42个SNP数据中找到了能有效预测哮喘病的SNP对ST+4和BC+1。
随机森林算法是一种有效的分类工具,具有发现没有强主效应的基因之间交互作用的潜力,在低维数据(100个SNP和10 000个观测值)中已经显示出较好地性能,然而,它们探测交互作用的能力实际上取决于主效应是否存在,不管存在的主效应是多么弱,因此,这种方法可能缺乏发现没有任何主效应的基因之间的交互作用的能力[26]。
SNPInterForest是对随机森林方法改进而来的,它在发现与疾病相关的SNP的能力比随机森林更强,并且具有同时识别多种交互作用的能力,SNPInterForest对具有主效应的SNP比随机森林更为敏感[27]。Pan等[28]把随机森林和互信息网络(mutual information network, MIN)集成,提出了互信息网络引导的随机森林方法MINGRF(MIN guided RF),其目的是减少边际效应对RF的影响。
1.3 支持向量机
支持向量机,也称为支持向量网络[29],是一种监督式的机器学习方法,用于求解二分问题(binary classification),广泛应用于分类和回归分析(regression)。支持向量机通常是设计一个合理的核函数,对数据进行变换,通过已知类别的数据对向量机进行训练,在变换的空间寻找一个超平面,期望能最大限度地把不同类别的数据隔离在超平面的两侧。支持向量机的学习过程其实是寻求一个既能最小化经验损失、又能最大化不同类别数据之间的几何间距的超平面的过程,因此SVM又被称为最大间距分类器。SVM可以通过学习已知存在交互作用的基因的特点,来预测哪些基因在遗传上有交互作用。为了实现这一点,支持向量机的训练数据是两组特征向量,它们被标记为阳性(存在遗传交互作用)和阴性(无遗传交互作用),在模拟数据集和真实数据集上的测试都显示出SVM具有较强的探测基因交互作用能力[30,31,32,33,34]。早在2004年,Listgarten等[32]利用SVM鉴定出许多与乳腺癌风险相关的基因变异,该文结果表明,当使用具有二次核函数的SVM预测乳腺癌患者时,多个SNP位点的组合比单一SNP位点预测乳腺癌患者的精度更高。Chen等[33]把SVM和局部搜索、遗传算法结合起来构建了一个探测基因交互作用的平台,在大量模拟数据上的测试结果表明该平台虽然需要较大的计算资源,但该平台能在case和control两组人数严重不对称的数据也能有效探测高维的基因交互作用。
Shen等[34]提出了一种两阶段探测基因与基因的交互作用的方法。第一阶段,Shen等利用L1惩罚SVM(模型选择法)识别最有可能有交互作用的SNP位点;第二阶段在第一阶段识别出的SNP位点的基础上,应用逻辑回归(logistic regression)和Bonferroni校正排除非候选SNPs。结果表明,L1惩罚SVM在病例对照组数据上的SNP交互作用探测是有效的,多变量logistic回归分析比传统的logistic回归分析对SNP的交互作用分析效果要好。Ban等[35]利用SVM方法分析韩国462个2型的糖尿病人和456个正常人在87个基因上的408个SNP位点上基因型的数据集,获得了一个由14个SNP交互作用的组合,该组合识别糖尿病的准确率大于70%。
1.4 多因子降维
2001年Ritchie等[36]提出了一种分析基因交互作用方法-多因子降维法。MDR是一种非参数的分析方法,适用于病例-对照组(case-control)研究,只需提供各遗传变异位点的遗传数据(如SNP等),即可进行基因交互作用分析。在MDR的第一阶段,从数据集中选择x个变异位点(在GWAS中为SNP位点),其中x为需要分析的交互作用的维数。对于SNP位点上的基因型数据而言,这x个位点上有3x个不同的基因型组合,MDR的第二阶段则用一个3x行2列的列联表统计出在这x个变异位点上所有不同取值组合的病例人数和对照组人数。第三阶段,利用列联表,计算出每个基因型组合对应的病例人数与对照组人数的比值,若该比值大于某个阈值t (例如t =总病例人数/总对照组人数),则标记为高危因子,反之则标记为低危因子,这样就把x维的数据精简到一维两水平(即高危或低危)的数据,获得了一个基于这x个变异位点预测疾病状态的基因交互作用模型,然后通过交叉验证该模型的精确度,选择预测误差最小的模型作为最终的模型。最后通过置换测试(permutation test)评价最终模型的统计显著性。MDR是一种无模式(model-free)的方法,不需提前对疾病模型进行假设,这使得MDR被大量用于分析发病机制未知的复杂疾病的遗传数据,获得了许多与复杂疾病相关的基因交互作用模型[37,38,39,40,41,42,43,44,45],例如,Tsai等[40]利用MDR方法发现了房颤中交互作用的基因对(RAS-ACE),MDR获得的最佳模型是由3个SNP组成,其中2个SNP来自RAS基因,1个SNP来自ACE基因。这3个SNP的10重交叉验证显示有很好的一致性,100次的置换测试得到的P-value为0.001。
然而,在分析表型-遗传异质性率偏高(>50%)的遗传数据集时,MDR发现基因交互作用模块的性能大大降低,尽管基因型组合分为“高危”或“低危”,但没有定量评价他们是危险程度,获得的最终模型很难解释[42]。MDR可以很便捷地发现交互作用,但MDR却无法揭示主效应[43]。当基因型组合中的病例对照率与整个数据集病例对照率相近时,MDR具有较高的假阳性和假阴性错误率[44]。为了解决这一问题,Leem等[44]用最大似然度方法确定基因型组合的风险级别,提出了EF-MDR(empirical fuzzy MDR, EF-MDR)。EF-MDR在WTCCC的克罗恩病(Crohn's disease, CD)和躁郁症(bipolar disorder, BD)数据集中探测到了一些有趣的多SNP交互。
Gui等[45]将x个位点上的基因型组合分为3组:高风险,低风险和未知风险,如果该组合上病例人数与对照组人数之比与所有病例人数与对照组人数之比相同或接近,则将其标记为未知风险,并从模型中排除,在此基础上提出了RMDR(Robust MDR)。Gui等使用膀胱癌数据集对RMDR和MDR进行测试,结果表明RMDR发现的基因交互模型更容易解释,其计算速度也较快。
为了使MDR能处理连续表型数据,Lou等[46]提出了对MDR进行了扩展,提出了GMDR(generalized MDR)。GMDR用一个通用的线性模型表示表型数据,利用最大似然度估计确定多个位点上的基因型组合的风险类别,当数据除了包含基因型数据还包含其他协变量数据时,GMDR能提高探测基因交互作用的能力,并且能适用于随机采样获得的数据集。在此基础上,为了处理数据中的群体层化问题,Chen等[47]提出了UGMDR(unified GMDR)。
Table 1
表1 机器学习方法的优势和局限性
Table 1
方法 | 优势 | 局限性 | 参考文献 |
Neural networks (NNs) | 1. 优秀的模式识别/分类功能 2. 有能力处理大数据 3. 适应遗传异质性/多基因遗传/高表型率/不完全外显率 | 不能枚举所有可能的神经网络架构,并且改变架构会改变数据分析的结果,无法确定正在使用的架构是否是最佳的 | [8] |
GPNN | 1. GP优化的NN体系结构 2. 在非功能性SNP存在下,探测交互作用时具有较高效能 3. 当功能性SNP未知,且变量选择和模型拟合所需一样时,优选结果 4. 不会过度拟合数据 5. 在弱边际效应的上位模型中具有较高的效能 6. 模型灵活:不需要选择最优的输入,权重,连接或是隐形层 | 1. 在三位点的模型中具有高假阳性率 2. 需要并行计算环境 3. 输出是二元表示树,它可能很大(多至500个节点),并难以解释 | [15] |
GENN | 1. GE优化的NN体系结构 2. 可用于从有噪声(例如,基因分型错误,缺失数据,拟表型,遗传异质性)的高维遗传病学数据中发现基因-基因交互作用 | 1. 数据集中拟表型的存在导致GENN的效果大大降低 | [18] |
RF | 1. 能发现没有强主效应的基因之间的交互作用 2. 不会过度拟合数据,且误差收敛有上限值 3. 能鉴定预测表型的SNP | 1. 探测交互作用的能力取决于主效应 2. 无法探测没有边际效应的基因之间的相互作用 3. 从随机森林中提取有用的生物信息时相对困难 | [19] |
SNPInterForest | 1. 可同时识别多个交互作用 2. 在没有边际效应时,不会低估SNP的重要性分数 3. 没有边际效应的情况下,每个节点上的多个SNP选择提高了探测疾病相关SNP的能力 4. 能评估SNP组合的交互作用强度 5. 具有较高的召回率和较低的假阳性率 6. 能发现存在遗传异质性的交互作用 | 计算量很大 | [27] |
SVM | 1. 比MDR有更多可解释的输出结果 2. 可以应用到新的数据结构 3. 分类时无需用户自定义 | 1. 无法处理不完整的数据 2. 处理存在遗传异质性的数据时效能降低 | [33] |
MDR | 1. 同时探测多个基因位点,保持低误报率 2. 无模式,适应于机制未知的遗传基因数据 | 1. 在高(50%)表型/遗传异质性下,检验效能显著降低 2. 当SNP的数量超过10时,需要大量的计算资源 | [36] |
RMDR | 1. 获得的交互模型比较容易解释 2. 多位点上基因型组合模型分类为高风险、未知风险和低风险三类,降低了假阳性率 | 比MDR需要更大的计算资源 | [45] |
GMDR | 1. 使用最大似然法给基因型组合模型分类 2. 给基因型组合模型分类是能考虑协变量的影响,可提高分类的准确性 | 比MDR需要更大的计算资源 | [46~48] |
2 现阶段模型的应用
全基因组关联研究在探测疾病相关的SNP上取得了大量的研究结果,但是在探测多基因的交互作用上还存在很多困难,这是由于基因组遗传数据具有高度的异质性,还有拟表型、表型变异性和不完全外显率等诸多因素造成的[49]。机器学习法在探测基因交互作用上可以用来解决这些局限性,例如,随机森林方法能够成功处理某些类型的异质性的问题,神经网络的一些特性能够解决遗传异质性,多基因遗传,高拟表率和不完全外显的问题[50]。帕金森病(Parkinson’s disease, PD)是老年人常见的一种神经退化性疾病,在65岁以上的人口有约2%的发病率,在85岁以上的老年人中,发病率上升至约5%,目前帕金森病的发病机制尚不清楚,但有假设认为帕金森病是由影响能量代谢和蛋白质合成的复杂的基因-环境的交互作用导致的,Mellick等[51]对306个PD病人和321个正常人测定了与线粒体复合体I相关的31个基因上的70个SNP数据,并进行了分析,没有发现单个SNP与PD有显著的统计相关性,而遗传编程神经网络(GPNN)则在该数据集中,探测到了DLST基因与性别之间的交互作用[17]。
唇裂,伴有或不伴有腭裂(CL/P),是人类最常见的一种脸部先天性缺陷,非综合征型CL/P得到了广泛的研究,发现了大量与CL/P相关的候选基因组区域。Li等[52]对891个亚洲裔Trio(一个Trio由父亲、母亲和患有非综合征型CL/P的小孩组成)和681欧洲裔Trio的SNP数据进行了分析,他们利用随机森林(RF)探测与WNT信号通路相关的18个基因上360个SNP和其他候选基因组区域上153个SNP位点之间的交互作用,结果发现WNT5B和MAFB有显著的交互作用(亚洲裔Trio的P =0.0076,欧洲裔Trio的P = 0.018)。类风湿关节炎(rheumatoid arthritis,RA)是一种慢性的主要体现为炎性滑膜炎的系统性疾病。WTCCC有一个RA数据集,该数据集包含了3499个人(1999个RA患者,2000个正常人)的500K个SNP数据。Yoshida等[27]首先利用单位点关联分析方法从该数据集的500K SNP中选出10K个SNP位点,然后利用SNPInterForest探测这些SNP之间的交互作用。SNPInterForest在1台6GB内存的计算机上运行98个小时候后发现了两个新的SNP交互作用(rs17665418, rs2121526)和(rs17665418, rs4799934)。rs17665418位于3p13, rs2121526位于10q21.1,而rs4799934位于18q12.2。
在欧美国家,前列腺癌(prostatic cancer)的发病率高居男性肿瘤的首位,死亡率仅次于肺癌、结直肠癌。Chen等[33]利用SVM方法分析来自瑞典的前列腺癌数据集,该数据集包含1355个病例和765个对照个体的位于18个基因中的57个SNP位点上的基因型数据,其中数据的缺失率低于5%。由于对照个体数少于病例数,他们从对照组中随机选择590个对照个体,加上原来的对照个体获得平衡数据集。分析结果显示,SVM方法即使在存在5%基因分型错误,5%缺失数据或两种错误都存在的情况下也具有较好的探测基因-基因交互作用的能力,在分析4阶或5阶交互作用时,SVM方法也展示较好的性能。
MDR、RMDR和GMDR也在真实生物数据上有成功的应用,但是由于其计算复杂度较高,通常用于SNP个数不是很多的场合。乳腺癌(breast cancer)最常见的形式是散发性乳腺癌,其致病原理仍然不明,但是有临床证据显示雌激素会影响其发病率。Ritchie等[36]将MDR应用于散发性乳腺癌的病例对照数据集,该数据集包含200个白人病例和对照个体的位于COMT、CYP1A1、CYP1B1、GSTM1和GSTT1基因上的10个SNP位点上的基因型数据,分析结果显示位于3个不同雌激素代谢基因COMT、CYP1A1和CYP1B1上的4个SNP位点之间存在高度交互作用,与散发性乳腺癌的犯病风险显著相关。膀胱癌(Bladder cancer)是泌尿系统中常见的恶性肿瘤,其发病机制十分复杂。Gui等[45]利用MDR与RMDR对美国新罕布什尔州355例膀胱癌病例和559例对照个体的数据集进行研究。该数据包含了与DNA修复有关的5个基因上7个SNP位点的基因型。分析结果发现MDR与RMDR都能找到相同的最佳多位点交互作用模型,但RMDR标记为高风险或低风险的基因型组合数量比MDR少很多,使模型更易解释,RMDR能比MDR提供了更加清晰的多位点交互作用模型。
Lou等[46]利用GMDR和MDR对191名吸烟者和191名不吸烟者的脑源性神经营养因子(BDNF [MIM 113505])、Ⅱ型神经营养性酪氨酸激酶受体(NTRK2[MIM 600456])、胆碱能受体烟碱α4(CHRNA4 [MIM 118504])和胆碱能受体烟碱β2(CHRNB2 [MIM 118507])这4个基因的23个SNP位点基因型数据进行分析。分析结果发现了CHRNA4的1个SNP (rs2229959)和NTRK2的3个SNP(rs993315,rs1122530和rs736744)的交互作用与尼古丁依赖症有显著的统计相关性。GMDR和MDR都能发现该4位点交互作用模型,但在模拟数据上的测试结果显示GMDR具有更好的预测能力。
Table 2
表2 机器学习方法在真实遗传数据的应用
Table 2
方法 | 应用案例 | 参考文献 |
GPNN | 应用于帕金森病数据集,该数据集包含与线粒体复合体I相关基因的70个SNPs,探测到了DLST基因与性别之间的交互作用 | [17] |
RF | 应用于非综合征性唇腭裂(CL/P)的真实数据,发现了WNT5B-MAFB等有统计显著性的基因交互 | [52] |
SNPInterForest | 应用于风湿关节炎的GWAS数据(约500000 SNPs),发现了两个新的交互作用 | [27] |
SVM | 应用于前列腺癌研究中18个基因中的57个SNP位点,识别高达5个SNP之间的高阶交互作用 | [33] |
MDR | 应用于与乳腺组织中雌激素代谢相关的5个基因中的10个SNP位点,确定了与乳腺癌风险相关的四位点交互作用 | [36] |
RMDR | 测试了与DNA修复有关的5个基因中的7个SNP位点;结果与使用相同数据的MDR研究相同,但是提供了更清晰的高风险交互作用模型 | [45] |
GMDR | 应用于4个基因中的23个SNP位点,以鉴定尼古丁依赖症的易感基因;GMDR和MDR确定了相同的交互作用 | [46] |
3 结语与展望
在全基因组关联研究中,多种机器学习方法被用来探测基因-基因交互作用,这些方法在模拟数据中能够成功地发现基因-基因交互作用,有些方法也用来分析一些真实遗传数据并发现了一些相关的多基因交互作用(表2)。机器学习算法在识别非线性复杂关系中具有优势,但机器学习算法也存在很多共性问题如计算资源需求大、可扩展性不强、给出的最优模型难以解释等局限性。探测基因-基因交互作用所需的计算量随着需要考虑的SNP位点数交互的维数指数增长,本文所讨论的大多数方法能从包含几百个SNP的数据集中探测多基因交互作用,但无法扩展到包含几十万SNP位点的数据集,当尝试发现大于2的高阶交互作用时,许多方法的效能显著降低。另外通过神经网络、随机森林、支持向量机等发现的基因交互作用模块很难给出合理的生物学解释。为了解决这些问题,可以考虑采用多阶段策略,在不同的阶段采用不同的机器学习方法,在前面的阶段采用神经网络、随机森林、支持向量机等寻找可能具有交互作用的候选SNP位点集,后续阶段则在这些SNP位点集的基础上,采用基于MDR的方法发现高阶基因交互作用,形成具有可扩展且结果容易解释的基因交互作用探测框架。参考文献 原文顺序
