Bacterial genome-wide association study: methodologies and applications
Chao Yang
Chao Yang, Ruifu Yang, Yujun Cui.
全基因组关联研究(genome-wide association study, GWAS)是一种从全基因组水平筛选与某表型(phenotype)显著相关的遗传变异,进而阐明表型遗传机制的方法[1]。相较于传统的分子遗传学方法,GWAS并不对表型产生的遗传机制做任何假设;而是直接从表型出发,设置合理的对照组,通过大样本的数据统计分析找到与表型关联的遗传变异,因此该研究方法可以应用于复杂表型研究。GWAS极大增进了人们对复杂表型的认识,在人类复杂疾病研究中取得了丰硕成果[2,3,4,5]。自2005年第一项有关黄斑病变的人类GWAS[6]发表以来,目前公开发表的人类GWAS工作已达到2982项,累计报道了36948个与疾病/表型相关的单核苷酸多态性位点(single nucleotide polymorphism,SNP)[7],为人类复杂疾病的预防治疗指明了道路。
GWAS同样可用于细菌研究,为宿主适应性、毒力等复杂表型的遗传机制探索提供新思路[8,9]。然而受限于早期相对匮乏的全基因组数据,细菌GWAS(bacterial GWAS, BGWAS)开展相对较晚。随着近年来高通量测序技术的发展,细菌测序成本快速下降,全基因组序列也得以迅速积累,目前NCBI数据库中已有近10万个细菌样本的全基因组序列,为BGWAS工作奠定了基础。自2013年空肠弯曲杆菌(Campylobacter jejuni)宿主适应性的BGWAS文章发表以来[10],目前已有10余项BGWAS工作被发表(表1)。这些研究揭示与细菌宿主适应性、耐药性及毒力等重要表型相关的基因组变异[10,11,12,13,14,15,16,17,18,19,20,21,22,23,24],极大加深了人们对细菌遗传、进化和传播等的认识。
Table 1
表1 细菌全基因组关联研究(BGWAS)示例
Table 1
物种名 | 重组率 | 样本量 | 表型 | 基因型 | 显著相关 | 软件 | 发表时间 | 参考文献 |
空肠弯曲杆菌 (Campylobacter jejuni) | 高 | 192 | 宿主适应性 | k-mer | 7307 k-mer (7个基因) | - | 2013 | [10] |
102 | 生物膜形成 | k-mer | 1657 kmer (46个基因) | - | 2015 | [16] | ||
600 | 存活力 | k-mer | 3382 k-mer (20个基因) | - | 2016 | [24] | ||
166 | 诊断标记 | 基因 | 25个非核心基因 | - | 2017 | [21] | ||
结核杆菌 (Mycobacterium tuberculosis) | 低 | 123 | 耐药性 | SNP | 50 SNPs | phyC | 2013 | [11] |
123 | SNP | 133 SNPs | PLINK | 2015 | [15] | |||
498 | SNP, indel | 12 SNPs | Bayes Traits | 2016 | [18] | |||
金黄色葡萄球菌 (Staphylococcus aureus) | 低 | 75 | 耐药性 | SNP | 1 SNP | ROADTRIPS | 2014 | [12] |
90 | 毒力 | SNP, indel | 121 SNPs, indels | PLINK | 2014 | [14] | ||
肺炎链球菌 (Streptococcus pneumoniae) | 高 | 3701 | 耐药性 | SNP, indel | 301 SNPs | PLINK | 2014 | [13] |
1680 | SNP,基因 | 426 SNPs | PLINK | 2017 | [23] | |||
2175 | 体内运输 | k-mer | 2 SNPs, 424 kmer | fast-LMM, SEER | 2017 | [22] | ||
猪链球菌 (Streptococcus suis) | 高 | 191 | 宿主适应性 | SNP,基因,k-mer | 0 | PLINK | 2015 | [17] |
单增李斯特菌 (Listeria monocytogenes) | 低 | 104 | 毒力 | 基因 | 43个基因 | - | 2016 | [19] |
鲍曼不动杆菌 (Acinetobacter baumannii) | 高 | 122 | 耐药性 | k-mer | 469 k-mer | bugwas | 2016 | [20] |
1 BGWAS的研究方法与工具
BGWAS的研究方法从人类GWAS发展而来,并在研究过程中开发了特有的思路和工具。BGWAS主要可以分成以下4个步骤:表型选取及采样,表型及基因型(genotype)测定、相关性检验及实验验证(图1)。1.1 表型选取及采样
选择合适的表型是BGWAS的第一步。表型通常可分为连续性数据(如细菌细胞的尺寸)和二分类数据(case/control),分别对应不同的相关性检验方法。尽管连续性数据的检验效力更高,但其数据难以获得、统计检验更复杂,因此目前仅有两项样本量较小的BGWAS研究使用了连续性表型数据[12,14]。相对而言,易于通过高通量方法获取大样本量数据的二分类表型是BGWAS研究的首选。选定表型后需要进行样本采集。采样时需注意采样方式和样本量的问题。采样方式可分为连续采样(time-coursed)和横断面采样(cross-sectional)两 种[26]。连续采样的样本,如分离同一病人的不同时期菌株及实验室进化菌株等获取难度较大,难以满足BGWAS的样本量需求。横断面采样通过收集一定时间内大量相关样本,如病人诊断样本或公共卫生监测样本等,能够快速的获得更综合全面的信息,是BGWAS的首选采样方式[26]。此外,采样时可以采用Farhat等[26]提出的成对采样策略,即优先选择遗传距离近、表型不同的菌株对。通过模拟计算发现成对采样不仅能有效降低种群结构带来的假阳性,还能显著提高统计检验效力。实际应用中可先用脉冲场凝胶电泳(pulsed field gel electrophoresis,PFGE)或多位点序列分型(multilocus sequence typing, MLST)等传统的快速分型方法对样本进行初步分型,然后根据分型结果筛选成对菌株进行测序用于BGWAS。

Fig. 1Flow of bacterial genome-wide association studies (BGWAS)
样本量大小也是BGWAS研究设计中的重要问题,较大的样本量能够增加统计检验效力,但同时会增加研究成本。影响分析时所需样本量的主要因素是效应量(effect size),即遗传变异能够解释的表型变异量。效应量是表型与基因型相关性的度量单位,其取值范围从0到1,1表示遗传变异能够完全解释表型[27]。对于效应量较大的变异,如抗生素抗性相关变异等,仅需要相对少量样本即可鉴定出相关性;而低效应量的变异则需要较大的样本量来保证检验的统计效力。当前BGWAS主要致力于高效应量变异鉴定,绝大多数样本量相对较小(表1)。理论上低效应量变异在细菌中一定存在并在细菌进化和生存中发挥重要作用;随着样本量的累积增大及BGWAS技术的进一步发展,相信将来会有越来越多的研究关注这类变异。
1.2 表型及基因型测定
实验室检测是获得细菌表型信息的最主要方式。此外,许多数据库整理保存了多种细菌表型信息,如PATRIC(https://www.patricbrc.org/)整合了多种细菌的基因组及对应耐药性等表型信息,NCBI的Pathogen Detection(https://www.ncbi.nlm.nih.gov/pathogens/)整合了病原菌基因组及对应的分离时间、地点、宿主等背景信息等。这些数据库提供的海量信息将极大的促进BGWAS的发展。随着测序技术的发展及细菌变异分析软件的完善,获得细菌基因组变异及相应的基因型信息已经越来越快速且准确[28,29,30]。细菌基因型数据可分为SNP、插入缺失(indel)、非核心基因获得缺失及k-mer等类型(表1)。SNP具有高分辨率、易鉴定等优势,是当前BGWAS最常用的基因型数据。SNP用于分析之前通常要进行质量控制,当前常用的质控标准为:位点测序质量值大于20,支持的reads数大于5条,最小等位基因频率(minor allele frequency, MAF) 大于1%或5%。此外,细菌SNP鉴定中会出现3态甚至4态SNP,但为了便于计算,实际应用中通常只有2态SNP用于关联分析。SNP变异的局限性是仅能反映细菌核心基因组信息,而许多细菌具有开放型泛基因组[31],这些菌株的非核心基因组变异也与细菌表型密切相关。因此,部分BGWAS研究也整合了indel、基因获得缺失信息等非核心基因组变异信息。此外,越来越多的研究使用k-mer来研究基因组变异(表1)。k-mer是指将全基因组序列切分成的长度为几十到上百个碱基的短片段。通过使用基于图论等的算法计算k-mer在不同样本间的存在与否,可以同时综合分析SNP变异及基因获得缺失等信息,从而能够更全面的探索表型的遗传变异机制,这类分析方法正越来越得到科研工作者的青睐。
1.3 相关性检验
获得各样本的表型以及基因型数据后,需要对两类数据之间进行相关性检验,但是在BGWAS中直接对两者做相关性检验容易造成假阳性结果。细菌的种群结构是造成假阳性相关的主要因素[8,15,25]。当研究对象可分成不同种群时,同一种群内部个体之间的遗传距离相对种群之间遗传距离更近,造成等位基因频率的非随机分布;当某一种群仅集中于对照组或者实验组时,BGWAS会鉴定出许多与分群相关而不是与表型相关的变异,进而导致假阳性的产生。降低种群结构所致假阳性的最直接方法是:采样时尽可能选取遗传异质性低的样本作为研究对象(如人类GWAS研究通常选择在同一人种甚至同一民族内进行),或者使用上文提到的Farhat成对采样策略[26]。但是即使选择同一种群的细菌样本,仍可能存在更精细的亚群结构。为了消除种群结构影响,部分研究沿用了人类GWAS工作中建立的软件进行分析(表1),如PLINK[32]、ROADTRIPS[33]、fast-LMM[34]等。此外,针对细菌自身特点的新算法也被不断开发出来,如结合系统发育信息和蒙特卡罗模拟的系统发育校正方法[10,35]以及基于线性混合模型的聚类法等[36,37,38]。这些方法已被整合到BGWAS分析工具中,并得到实际应用(表2)。Table 2
表2 细菌全基因组关联研究(BGWAS)工具
Table 2
研究工具 | 发表时间 | 特点 | 种群结构处理 | 适用性 | 应用 | 下载链接 | 参考文献 |
phyC | 2013 | 通过检测趋同进化鉴定表型相关位点 | 系统发育校正 | 低、中重组率细菌 | 结核杆菌(Mycobacterium tuberculosis) | - | [11] |
bugwas | 2016 | 基于k-mer,同时检测表型相关位点及家系(lineage) | 线性混合模型校正 | 所有细菌 | 结核杆菌(Mycobacterium tuberculosis),金黄色葡萄球菌(Staphylococcus aureus),大肠杆菌(Escherichia coli),肺炎克雷伯菌(Klebsiella pneumoniae),鲍曼不动杆菌(Acinetobacter baumannii) | https://github.com/jessiewu/bacterialGWAS | [36] |
SEER | 2016 | 无需参考序列,可变k-mer长度,支持连续表型数据 | 多维尺度变换 | 所有细菌 | 肺炎链球菌(Streptococcus pneumonia),酿脓链球菌(Streptococcus pyogenes) | https://github.com/johnlees/seer | [38] |
Scoary | 2016 | 针对非核心基因,简单快速 | 两两比对及置换检验 | 所有细菌 | 肺炎链球菌(Streptococcus pneumoniae), 表皮葡萄糖菌(Staphylococcus epidermidis) | https://github.com/AdmiralenOla/Scoary | [37] |
treeWAS | 2017 | 整合重组及表型聚类信息,支持连续表型 | 系统发育校正 | 低、中重组率细菌 | 脑膜炎双球菌(Neisseria meningitidis) | https://github.com/caitiecollins/treeWAS | [35] |
此外,自然选择可以对细菌种群结构形成非常大的影响,如抗生素选择压力可能在自然界中筛选出特定的病原菌克隆群。能够检测正向选择引起的趋同变异的phyC[11]及整合家系效果(lineage effect)检测的bugwas[36]能够有效解决这类问题。
除了种群结构和重组率的影响,多重检验带来的假阳性也是GWAS不可避免的问题。GWAS通常涉及数以万计的相关性检验,那么按照常用的显著性阈值P<0.05时,理论上会随机产生数百个假阳性结果。如此高的假阳性率显然无法接受,因此需要对多重检验进行校正。目前BGWAS主要沿用了人类GWAS中常用多重检验校正方法,如Bonferoni 校正(显著性阈值=0.05/N,N为变异位点数)及假发现率校正(false discovery rate correction)等[40],能够显著降低假阳性结果的数量。
1.4 实验确认
尽管目前采用多种策略来降低GWAS结果的假阳性,但假阳性问题仍然难以完全避免。为此,人类GWAS通常需要重复研究来确认表型相关变异[41]。得益于细菌易实验操纵的特点,BGWAS中鉴定的靶标变异可通过实验室验证的方法来排除假阳性。Falkow[42]在1988年提出了分子科赫法则,即“基 因失活造成表型消失,重建则表型恢复”。这为实验确认GWAS鉴定的相关变异提供了标准。另外,基因敲除/重组技术的进步及突变体文库的完善极大的方便了BGWAS结果确认,多项BGWAS通过实验对相关位点进行了验证,确认了变异与表型的相关性[10,11,14,18,19,24]。1.5 BGWAS的研究工具
目前已有多种工具被开发出来,用于解决BGWAS分析所面临的问题(表2)。Farhat等[11]开发了通过检测趋同进化来鉴定表型相关变异的软件phyC。该软件能够显著降低假阳性,适用于强选择性状相关变异的检测[15]。Earle等[36]利用线性混合模型整合样本相关性来校正种群结构,开发出了能够同时检测表型相关位点及家系效果的软件bugwas,成功应用于3000多株不同重组率细菌的耐药性研究。Lees[38]利用“Scale-mining”算法,开发出了高计算效率、支持可变长度k-mer的SEER。Brynildsrud等[37]针对细菌泛基因组,开发出了能够快速检测表型相关基因获得/缺失的Scoary。Collins等[35]通过整合重组及表型聚类信息开发出了基于系统发育校正的treeWAS软件。除了专门针对细菌非核心基因组的Scoary软件外,bugwas、SEER等都支持k-mer运算,能够同时捕捉核心及非核心基因组变异信息。由于BGWAS软件开发仍处于萌芽阶段(到目前为止,多数BGWAS软件发表不到一年),这些工具的实际应用价值还有待实践检验。在实际应用中,可以根据基因型数据类型,选择多个软件同时进行数据分析,对运算结果做交叉验证。2 BGWAS研究的应用进展
通过BGWAS研究,多种重要表型与遗传因子之间的相关性被建立起来。目前半数以上BGWAS研究是针对细菌耐药性开展的[11-13,15,18,23]。如Farhat等[11]通过检测趋同进化来筛选结核杆菌(Mycobacterium tuberculosis)的耐药相关变异,除了找到了过去已知的全部耐药位点外,还发现了39个新的耐药相关区域。第一项大样本的BGWAS同样关注于耐药性问题,Chewapreecha等[13]通过分析3701株肺炎链球菌(Streptococcus pneumoniae),找到了与β内酰胺类抗性相关的301个SNP位点。部分BGWAS研究关注宿主适应性、毒力等细菌与宿主相互作用的表型。例如,最早的BGWAS研究通过分析192株来源于不同宿主的空肠弯曲杆菌(Campylobacter jejuni),发现并验证了一组维生素B5合成相关基因与宿主饮食适应相关,既而导致某些基因型的细菌倾向于生活在特定种类的宿主中[10]。Laabei等[14]通过分析90株毒力不同的金黄色葡萄球菌(Staphylococcus aureus),发现了121个毒力相关因子,并通过实验验证了4个毒力因子,进一步增进了人们对细菌毒力的认识。此外,BGWAS还被应用于生物膜形成[16]、存活力[24]、体内运输[22]等多种细菌生理相关的表型研究,为解析这些表型的遗传机制提供了新的数据。通过BGWAS发现的表型相关变异可以很好的促进细菌表型预测研究。Laabei等[14]利用BGWAS在金黄色葡萄球菌(Staphylococcus aureus)中鉴定出的50个毒力相关变异,结合“随机森林”机器学习算法,建立了该病原的毒力预测模型,其预测准确率高达85%以上。Mobegi等[23]利用类似的方法建立了肺炎链球菌(Streptococcus pneumoniae)耐药性预测模型,能够根据基因组序列定量评估分离株耐药性的强弱。表型预测模型的建立进一步拓展了BGWAS的用途,随着算法和模型的完善,将极大加速细菌表型信息的获取,对基因的功能研究以及细菌性病原的监测和控制等领域具有重要意义。
值得关注的是,BGWAS研究还可以应用于开发新的临床诊断标记。Buchanan等[21]通过对166株空肠弯曲杆菌(Campylobacter jejuni)的泛基因组序列BGWAS分析,发现25个非核心基因的获得缺失与弯曲杆菌病发病相关。这些遗传标记可通过PCR等方法实现快速检测,因而可以方便的应用于对细菌病原所致疾病的临床诊断和治疗中。
3 结语与展望
尽管只经历了短短几年发展历史,BGWAS研究已经取得了丰硕成果。通过BGWAS分析,人们揭示了细菌多种重要表型的相关遗传因子,极大加深了人们对细菌遗传机制、适应性进化及传播等领域的认识,并为医学临床诊断、治疗和公共卫生领域的进步提供了新的思路。BGWAS本质上是在不同数据组之间建立关联。数据组的种类、获取难度、累积数量与关联算法决定了BGWAS的应用前景。(1)未来的BGWAS研究将更加全面,不只着眼于耐药性等效应量大的表型,也会增加对效应量小、相关性较弱的表型与变异的关注,从全局角度重新认识功能基因对细菌表型的影响。(2) BGWAS会与宿主基因组数据整合分析,通过细菌基因组、表型与宿主基因组的综合性关联
分析,进一步增进人们对细菌变异是否受宿主影响这一问题的认识。此外,这种细菌—宿主相互作用研究将帮助人们识别细菌的靶标蛋白,进而促进药物及疫苗等的开发[25]。(3) BGWAS可以与宏基因组数据相结合,通过多种细菌之间的基因组关联分析,进一步增进人们对细菌协作、竞争等行为的认识,为宏基因组研究提供新的手段。(4) BGWAS结果易于进行实验室验证的特点,将促进该领域在理论上得到迅速发展,从而可以对人类GWAS研究的基础理论和算法提供支持,为多基因连锁控制某一性状等难题提供新的解决思路。(5) BGWAS在临床细菌检验与疾病诊断中有着广阔的发展前景。临床检验实验如最小抑菌浓度检验等,能为BGWAS提供海量的重要表型信息,而BGWAS能利用这些信息来鉴定相关变异,进而建立和优化细菌表型预测模型,极大改善临床检验与诊断的速度及准确性。相信随着测序成本的进一步降低和研究工具的持续更新,会使BGWAS的深厚发展潜力得以爆发。
