删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

牛SNP芯片分型检出率和分型错误率对基因型填充准确率的影响

本站小编 Free考研考试/2022-01-01

李智1,2,3, 何俊1,3, 蒋隽1,4, Richard G. Tait Jr.3, Stewart Bauck3, 过伟,2, 吴晓林,1,3,41. 湖南农业大学动物科技学院,长沙410128
2. 美国怀俄明大学动物科学系,怀俄明州拉勒米市82071
3. 美国纽勤公司生物信息与生物统计部,内布拉斯加州林肯市68504
4. 美国威斯康星大学动物科学系,美国威斯康星州麦迪逊市53706

Impacts of SNP genotyping call rate and SNP genotyping error rate on imputation accuracy inHolsteincattle

Zhi Li1,2,3, Jun He1,3, Jun Jiang1,4, Richard G. Tait Jr.3, Stewart Bauck3, Wei Guo,2, Xiao-Lin Wu,1,3,41. CollegeofAnimalScienceand Technology, HunanAgricultural University, Changsha 410128, China
2. Department of Animal Science, University of Wyoming, Laramie WY 82071, USA
3. Biostatisticsand Bioinformatics, NeogenGeneSeek, LincolnNE68504, USA
4. Department of Animal Sciences, University of Wisconsin, Madison WI 53706, USA

通讯作者: 过伟,博士,副教授,博士生导师,研究方向:肌肉生理以及肌肉的结构和功能。E-mail:wguo3@uwyo.edu;吴晓林,博士,教授,博士生导师,研究方向:动物遗传育种。E-mail: nwu@neogen.com

编委: 赵要风
收稿日期:2018-11-30修回日期:2019-04-16网络出版日期:2019-07-20
基金资助:湖南省****项目,湖南省重点研发计划项目.2018NK2081
湖南省畜禽安全协同创新中心项目和长沙市科技计划重点项目资助.kq1801014


Received:2018-11-30Revised:2019-04-16Online:2019-07-20
Fund supported: Supported by Hundred-Talent Project of Hunan Province, Key Researchand Development Program of Hunan Province.2018NK2081
Hunan Innovation Center of Animal Safety Production and Key Researchand Development Program of Changsha City.kq1801014

作者简介 About authors
李智,博士研究生,研究方向:动物遗传育种E-mail:zli13@uwyo.edu。









摘要
SNP芯片已被广泛应用于动植物的遗传研究和生产实践,其基因分型的准确性至关重要。但在实际应用中,常有一定数量的基因型因缺失而需要去估计(填充)。此外,由于各种原因,又常常需要在不同芯片的基因型之间相互填充彼此没有的SNP基因型,或从低密度SNP填充到高密度SNP基因型。因此,基因型填充准确率直接影响后续数据分析的准确性和可靠性。为深入了解基因型填充准确率的影响因素,本研究利用20 116头美国荷斯坦牛的50K SNP芯片基因分型数据,在SNP分型检出率与错误率存在相关和没有相关两种情形下,分别评估了上述两个因素对下游基因型填充准确率的影响。当两者不相关时,模拟的SNP分型检出率从100%降低到50%,SNP分型错误率由0%提升到50%。当两者存在相关时,基因分型的检出率和错误率之间的关系是基于一个实际数据中这两个变量之间的线性回归方程来确定,即模拟的SNP分型检出率从100%降低到50%,SNP分型错误率从0% 升高到 13.35%。最后,采用5折交叉验证的方法评估基因型填充的准确率。结果表明,当原始数据的SNP分型检出率与错误率彼此独立发生时,基因型填充的错误率受原始SNP分型检出率影响不大(P>0.05),却随着原始SNP分型错误率的升高而显著提高(P<0.01)。当原始数据的SNP分型检出率与错误率存在负相关时,基因型填充的错误率随着原始SNP分型检出率的降低而显著提高(P<0.01)。在这两种情形下,建议SNP分型检出率应在90%以上,基因型填充准确率才能不低于98%。该结果可为提升实际的SNP分型和下游数据分析的质控提供参考依据。
关键词: SNP芯片;基因型分型;填充准确率;检出率;错误率

Abstract
Single nucleotide polymorphism (SNP) chips have been widely used in genetic studies and breeding applications in animal and plant species. The quality of SNP genotypes is of paramount importance. More often than not, there are situations in which a number of genotypes may fail, requiring them to be imputed. There are also situations in which ungenotyped loci need to be imputed between different chips, or high-density genotypes need to be imputed based on low-density genotypes. Under these circumstances, the validity and reliability of subsequent data analyses is subject to the accuracy of these imputed genotypes. For justifying a better understanding of factors affecting imputation accuracy, in the present study, the impacts of SNP genotyping call rate and SNP genotyping error rate on the accuracy of genotype imputation were investigated under two scenarios in 20 116 U.S. Holstein cattle, each genotyped with a GGP 50K SNP chip. When the two factors were not correlated in scenario 1, simulated genotyping call rate varied from 50% to 100% and simulated genotyping error rate changed from 0% to 50%, with both factors being independent of each other. In scenario 2, genotyping error rates were correlated with genotyping call rate, and the relationship was set up by fitting a linear regression model between the two variables on a real dataset. That is, the simulated SNP call rate varied from 100% to 50% whereas the SNP genotyping rate changed from 0% to 13.55%. Finally, a 5-fold cross-validation was used to assess the subsequent imputation accuracy. The results showed that when original SNP genotyping call rate were independent of SNP genotyping error rate, the imputation accuracy did not change significantly with the original genotyping call rate (P>0.05), but it decreased significantly as the genotyping error rate increased (P<0.01). However, when original genotyping call rate was negatively correlated with genotyping error rate, the imputation error increased with elevated original genotyping error rate. In both scenarios, genotyping call rate needs to be no less than 0.90 in order to obtain 98% or higher genotype imputation accuracy. The present results can provide guidance for establishing quality assurance criteria for SNP genotyping in practice.
Keywords:SNP chip;genotyping;imputation accuracy;call rate;error rate


PDF (451KB)元数据多维度评价相关文章导出EndNote|Ris|Bibtex收藏本文
本文引用格式
李智, 何俊, 蒋隽, Richard G. Tait Jr., Stewart Bauck, 过伟, 吴晓林. 牛SNP芯片分型检出率和分型错误率对基因型填充准确率的影响[J]. 遗传, 2019, 41(7): 644-652 doi:10.16288/j.yczz.18-319
Zhi Li, Jun He, Jun Jiang, Richard G. Tait Jr., Stewart Bauck, Wei Guo, Xiao-Lin Wu. Impacts of SNP genotyping call rate and SNP genotyping error rate on imputation accuracy inHolsteincattle[J]. Hereditas(Beijing), 2019, 41(7): 644-652 doi:10.16288/j.yczz.18-319


随着高通量DNA测序和基因分型技术水平的不断提高,SNP芯片在各类遗传学研究和动植物育种中均得到了广泛应用[1,2],如全基因组关联分析(genome-wide association study, GWAS)[3,4]、基因组选择(genomic selection)[5,6]、基因组品种鉴定(genomic breed composition)[7]以及基因组选配(genomic mating)[8,9,10]等。SNP芯片在使用过程中,一个重要的数据处理环节是基因型填充(genotype imputation),即利用参考群体提供的各基因座位之间的连锁不平衡和重组率信息,构建彼此连锁的单倍型,然后依据所构建的单倍型信息,对目标个体(测试群体或有缺失基因型的个体)缺失位点上的基因型进行填充(预测)[11,12]

基因型填充主要应用于如下几种情形:第一,由于各种原因导致在SNP芯片基因分型时会产生一部分缺失值,进而影响到下游数据的分析及统计推断。这种情况则可以通过基因型填充来解决[13];第二,SNP芯片密度越高,对基因组的覆盖程度越大,从基因型数据中获取的信息量也可能更多。特别是对于基因组选择,高密度SNP芯片对经济性状的预测准确性往往比低密度芯片的预测准确性高[14]。但目前高密度芯片的成本依然较高,制约了其广泛应用。通过基因型填充技术,可以根据已有的参考群体的高密度基因型信息,将低密度基因型填充至中密度或高密度基因型,从而极大提升低密度芯片的使用性价比,降低基因分型的实验检测费用和后续的育种成本[15,16];第三,很多遗传学研究都需要合并不同密度或(和)不同时期芯片数据的基因型,从而整合不同群体或试验研究的统计资料,对研究目标(或基因)进行综合性的评估[17,18],就需要在不同密度SNP芯片之间相互填充所缺失的基因型。除此以外,基因型填充在SNP精细定位、未分型变异填充、非SNP变异填充以及纠正少量基因分型错误等方面均有应用[11]

目前,基因型填充已成为基因分型数据处理过程中的一项常规手段[19]。而填充的准确度对后续数据分析起着至关重要的作用[20,21]。影响基因型填充准确度(genotype imputation concordance, GIC)的因素很多,如参考群体大小[22]及其组成成分[23]、参考群体与目标群体的遗传关系(距离)[24]以及所使用的软件和算法[11]等。但这些影响因素大多属于数据分析的中下游,而在数据分析的上游,SNP芯片基因分型的数据质量也对后续数据分析的可靠性有着非常大的影响。影响基因分型数据质量的主要因素包括SNP 基因型分型的检出率(SNP genotyping call rate, GCR)和SNP基因型分型的错误率(SNP genotyping error rate, GER),或简称SNP分型检出率和SNP分型错误率。SNP分型检出率是指SNP基因型分型过程中,SNP的探针强度值未通过检测过滤分数或所检测等位基因的强度信号分数处于统计模型所推测的基因组聚类的边界之外的比率。就一个样本而言,其SNP基因型的总检出率等于该样本所检出的SNP基因型(或基因型检出成功的SNP座位)占其在该芯片上检测的所有SNP基因型(或SNP座位)的比率。Purfield等[25]研究表明,SNP分型检出率会影响SNP分型的完整性,检出率低的样品中缺失基因型的填充准确性也较差,综合考虑重新取样和再分型的成本,以及确保后续分析中有数量最多的准确SNP分型,通常建议SNP分型检出率应在85%以上。实际上,许多研究或基因分型的质量控制中都会采用更严格地标准,要求SNP分型的检出率不得低于90%[26]或95%[27]。在人类遗传学研究中,甚至有研究者将SNP分型检出率的标准定为99%以上[28]。SNP分型错误率是指误判的基因型(或座位)占所有检测的SNP基因型(或座位)的比率。假设某个体在一个SNP座位的真实基因型为AA,而芯片分型显示为AB或者BB,即为一个基因型分型错误。产生SNP分型错误的原因很多,如各种技术和人为原因、低质量低数量的DNA模板以及仪器对基因分型的评分和数据分析等。由于真实基因型未知,所以只能通过其他资料(如系谱)和统计学方法来对基因分型的错误(率)进行推测(估计)[29,30,31]

目前,对于基因型填充准确率的影响因素研究,多集中于中下游数据分析的一些影响因素和校正方法,而对上游基因型分型过程中的影响因素的报道较少。本研究旨在通过探讨SNP分型检出率和错误率这两个上游因素对基因型填充错误率的影响,以期为提升SNP分型和下游数据分析的质量提供理论依据和参考。

1材料与方法

1.1 实验材料

采用在美国纽勤公司(NeogenGeneSeek, Lincoln,NE, USA)所检测的20 116头美国荷斯坦牛GGP (GeneSeek Genomic Profiler) 50K SNP芯片数据,该芯片包括49 463个SNP座位的基因型。群体中牛的出生年份为2008~2017年。样本群体中SNP分型结果的MAF均值(标准差)为 0.2958(±0.1521),MAF分布见图1

图1

新窗口打开|下载原图ZIP|生成PPT
图1GGP 50K SNP芯片测定的荷斯坦牛群体MAF分布图

Fig. 1Histogram of SNP minor allele frequencies in a Holstein dairy cattle population, genotyped on GGP bovine 50K SNP chips



1.2 SNP分型检出率和错误率的模拟

分别在以下两种情形中模拟SNP分型的检出率和错误率。第一种情形是基因型检出率和错误率没有相关性。在此情形下,基因型检出率和错误率为两个彼此独立的随机事件。设置不同SNP分型检出率水平为100%、95%、90%、85%、80%、75%、70%、65%、60%、55%和50%;设置不同SNP分型错误率水平为0%、5%、10%、15%、20%、30%、40%和50%。分别模拟不同SNP分型检出率和错误率的组合情况下的填充准确率。第二种情形是SNP分型的检出率和错误率之间存在显著的负相关关系时,模拟研究不同SNP分型检出率水平(100%、95%、90%、85%、80%、75%、70%、65%、60%、55%和50%)下的填充准确率。其中SNP分型检出率(x)和SNP分型错误率(y)关系是依据历史资料中12头牛胚胎和3头小牛数据(附表1)的线性回归分析结果(相关系数r=0.912;P<2.16e-06)的一个近似方程来设定,如下:

$y=0.267-0.267x;0.5\le x\le 1$
Supplemental table 1
附表1
附表1 4个家系12头牛胚胎和3头小牛SNP分型检出率和SNP分型错误率
Supplemental table 1 Observed SNP genotyping call rate and SNP genotyping error rate for 12 embryos and 3 calves infourfamilies
家系 动物个体 SNP个数 SNP分型检出率(%) 错误SNP个数 SNP分型错误率(%)
A A1* 38 926 98.50 311 0.80
B B1 31 808 80.50 2691 8.50
B2* 38 277 96.80 299 0.80
B3* 38 284 96.80 259 0.70
B4 32 916 83.30 1687 5.10
B5 25 898 65.50 3025 11.70
C C1 26 228 66.30 1823 7.00
C2 20 079 50.80 2624 13.10
C3 26 490 67.00 1956 7.40
C4 26 147 66.10 1182 4.50
C5 21 140 53.50 2726 12.90
D D1 25 117 63.50 1806 7.20
D2 24 685 62.40 1959 7.90
D3 17 630 44.60 2617 14.80
D4 17 170 43.40 3199 18.60
*表示3头小牛。

新窗口打开|下载CSV

SNP分型错误的模拟方法如下:设每个SNP座位上发生基因型错误的几率是随机的,且两个等位基因上发生的错误比例相等。以某SNP的AB基因型为例(即真实的基因型为AA),设将A等位基因误判为B等位基因的概率等于将B等位基因误判为A等位基因的概率,即$\Pr (A\to B|AA)=\Pr (B\to A|AA)=$$\varepsilon $。为了表示方便,本文省略上式中条件概率的表示部分“|AA”。因此,计算AA基因型误判为AB基因型的概率,需要考虑3个方面:(1)一个A等位基因被误判为B等位基因的概率;(2)另一个A等位基因被误判为B等位基因的概率;(3)排除两个A等位基因同时被误判为B等位基因的概率。因此,

$\begin{matrix} & Pr(AA\to AB|AA)=\Pr (A\to B)\bigcup \Pr (A\to B)- \\ & \ \ \ \ 2\Pr (A\to B)\bigcap \Pr (A\to B)= \\ & \ \ \ \ \varepsilon +\varepsilon -2{{\varepsilon }^{2}}2\varepsilon -2{{\varepsilon }^{2}} \\ \end{matrix}$
类似地,可以推导出:

$\begin{matrix} & Pr(AA\to BB|AA)= \\ & \ \ \ \ \Pr (A\to B)\bigcap \Pr (A\to B)={{\varepsilon }^{2}} \\ \end{matrix}$
$\begin{matrix} & Pr(AB\to AA|AB)=\Pr (B\to A)- \\ & \ \ \ \ \Pr (B\to A)\bigcap \Pr (A\to B)=\varepsilon -{{\varepsilon }^{2}} \\ \end{matrix}$
$\begin{matrix} & Pr(AB\to BB|AB)=\Pr (A\to B)- \\ & \ \ \ \ \Pr (A\to B)\bigcap \Pr (B\to A)=\varepsilon -{{\varepsilon }^{2}} \\ \end{matrix}$
$\begin{matrix} & Pr(BB\to AB|BB)=\Pr (B\to A)\bigcup \Pr (B\to A)- \\ & \ \ \ \ 2\Pr (B\to A)\bigcap \Pr (B\to A)~=2\varepsilon -2{{\varepsilon }^{2}} \\ \end{matrix}$
$Pr(BB\to AA|BB)=\Pr (B\to A)\bigcap \Pr (B\to A)={{\varepsilon }^{2}}$
为计算方便,设单个等位基因的SNP分型误判率(ε)近似等于该座位基因型错误率($\in$)的一半。根据哈代温伯格平衡,可以证明这个近似关系在两个等位基因错误几率均等的假设条件下是成立的:

$\begin{matrix} & \in =Pr(AA)\times \{Pr(AA\to AB|AA)+Pr(AA\to BB|AA)\}+ \\ & \ \ \ \ Pr(AB)\times \{Pr(AB\to AA|AB)+Pr(AB\to BB|AB)\}+ \\ & \ \ \ \ Pr\{BB\}\times \{Pr(BB\to AB|BB)+Pr(BB\to AA|BB)\}= \\ & \ \ \ \ {{p}^{2}}\times (2\varepsilon -2{{\varepsilon }^{2}}+{{\varepsilon }^{2}})+2p(1-p)\times \\ & \ \ \ \ (2\varepsilon -2{{\varepsilon }^{2}})+{{(1-p)}^{2}}2\varepsilon -2{{\varepsilon }^{2}}+{{\varepsilon }^{2}}= \\ & \ \ \ \ [{{p}^{2}}+2p(1-p)+{{(1-p)}^{2}}]\times 2\varepsilon +O{{\varepsilon }^{2}}\approx 2\varepsilon \ \ \ \ \ \ \ \ \ \ \ \ \ \\ \end{matrix}$
因为${{p}^{2}}+2p(1-p)+{{(1-p)}^{2}}=1$,并且$O{{\varepsilon }^{2}}\le $$O(\varepsilon )$。因此,基因型的错误率约等于单个等位基因错误率ε的2倍,$\in \approx 2\varepsilon $。

1.3交叉验证

基因型填充的准确率,定义为正确填充的基因型(或SNP座位)的数目占全部填充的基因型(SNP座位)的比率。基因型填充错误率=(1-基因型填充准确率)。

基因型填充采用NeogenGeneSeek内部软件neoFImpute 1.1.08 R软件包。该软件包是FImpute软件[32]的一个外包与拓展的软件包,除了具有基因型填充的功能外,还拥有数据转换以及基因型填充的下游数据处理(如计算基因型填充的准确率)等方面的功能。

本研究采用5折交叉验证(5-fold cross validation, 5-CV)的方法评估基因型填充的错误率。首先,将20 116头美国荷斯坦牛随机近似均分成5份,将其中的4份作为参考群体(reference population),参考群体中所有动物的GGP 50K 基因型都是已知的,另外一份作为目标群体(target population)。然后,将目标群体的缺失基因型重新填充到50K基因型,并计算目标群体中基因型填充的错误率(准确率)。如此循环5次后,取5次基因型填充错误率(准确率)的平均值作为结果。因此,本研究使用的基因型填充准确率实际上是填充的基因型和真实基因型之间的一致性的比率(concordance rate),而不是填充的基因型和真实基因型之间的相关[33]

1.4数据统计分析

采用方差分析评估GCR和GER对于GIC的影响,数据模型如下:

GIC=GCR+GER+e
其中,e为数据的误差项。

2结果与分析

2.1 SNP分型检出率和错误率无相关时对填充错误率的影响

当SNP分型检出率与SNP分型错误率没有相关时,基因型填充错误率主要受制于SNP分型错误率,SNP分型检出率则对基因型填充错误率没有显著影响(P=0.22)。从图2可以看出,在同一SNP分型错误率水平下,随着SNP分型检出率的降低,填充错误率并未显著提高。以20%的SNP分型错误率为例(图2中浅蓝色线),当SNP分型检出率从100%降低到50%时,基因型填充错误率基本维持与SNP分型错误率相当的水平,从开始的20%略微升高到22.91%。

图2

新窗口打开|下载原图ZIP|生成PPT
图2荷斯坦牛GGP50K SNP分型的检出率对SNP 基因型填充错误率的影响

不同颜色线条代表不同SNP分型错误率水平。
Fig. 2Impact of SNP genotyping call rate on imputation error rate in a Holstein dairy population, genotyped by GGP bovine 50K SNP chips



但是,SNP分型错误率的变化对后续基因型填充的错误率有显著影响(P<2e-16)。在SNP分型检出率保持不变的情形下,基因型填充的错误率随着SNP分型错误率的升高而增加,二者大致上保持同步增长的水平(图3)。因此,对于SNP分型检出率和错误率这两个因素而言,当二者彼此独立发生的时候,基因型填充错误率(准确率)主要受SNP分型错误率的影响。

图3

新窗口打开|下载原图ZIP|生成PPT
图3荷斯坦牛GGP50K SNP分型错误率对SNP基因型填充错误率的影响

不同颜色线条代表不同SNP分型检出率水平。
Fig. 3Impact of SNP genotyping error rate on imputation error rate in a Holstein dairy population, genotyped by GGP bovine 50K SNP chips



以上结果表明,基因型填充本身不能有效矫正或显著降低基因型中的孟德尔误差(Mendelian errors)的比例。例如,当动物个体的SNP分型错误率为20%时,根据其父母的基因型,可推测的孟德尔误差平均约为6.04%;基因型填充后的50K基因型中,基因型孟德尔误差约为6.18%。总体而言,可以检测到的孟德尔误差大约占全部基因型错误的30%左右。

2.2 SNP分型检出率和错误率存在相关时对填充错误率的影响

当SNP分型检出率和错误率存在负相关关系时(相关系数r=0.912,P<2.16e-06),随着检出率的降低,基因型填充的错误率随着原始SNP分型错误率的升高而增加。图4展示了两种不同假设前提下SNP分型检出率对填充错误率的影响。在SNP分型检出率从100%降低到50%的过程中,SNP分型错误率则由0%升高到13.35%(由公式1计算可得)。同时,基因型填充的错误率(图4橙色线)也由0%增加到15.06%,基因型填充的错误率显著提高(P<6.39e-3)。相比之下,当SNP分型检出率和错误率不存在相关时,基因型填充的错误率(图4蓝色线)并不随着SNP分型检出率的升高而明显增加,而是维持在2%的误差以内。

图4

新窗口打开|下载原图ZIP|生成PPT
图4在两个不同假设前提下SNP分型检出率对基因型填充错误率的影响

蓝色线:SNP分型错误率与SNP分型检出率不相关;橙色线:SNP分型错误率与SNP分型检出率存在负相关关系。
Fig. 4Impact of SNP genotyping call rate on SNP genotype imputation under two scenarios



相比于SNP分型错误率,SNP分型检出率更易于检测和控制,所以人们往往也更希望通过分型检出率来预测和控制基因型填充错误率(SNP genotype imputation error rate, IER)。本文通过以下的公式推导,来解释SNP分型检出率(GCR)和基因型填充错误率(IER)之间的关系。

设定IERGCR以及SNP分型错误率(GER)之间存在下列线性回归关系:

$IER={{a}_{1}}+{{b}_{1}}\cdot GCR+{{b}_{2}}\cdot GER+{{e}_{1}}$
式中${{a}_{1}}$为回归截距,${{b}_{1}}$和${{b}_{2}}$为回归系数,${{e}_{1}}$为残差项。同时,GER又受到GCR的影响,它们之间的边际线性回归关系可以表示如下:

$GER={{a}_{3}}+{{b}_{3}}\cdot GCR+{{e}_{3}}$
将(11)式带入(10),可以得到下列关系:

$\begin{matrix} & IER={{a}_{1}}+{{b}_{1}}\cdot GCR+{{b}_{2}}\cdot ({{a}_{3}}+{{b}_{3}}\cdot GCR+{{e}_{3}})+{{e}_{1}}= \\ & \ \ \ \ ({{a}_{1}}+{{b}_{2}}{{a}_{3}})+({{b}_{1}}+{{b}_{2}}{{b}_{3}})\cdot GCR+({{e}_{1}}+{{b}_{2}}{{e}_{3}})= \\ & \ \ \ \ {{a}^{*}}+{{b}^{*}}\cdot GCR+\text{ }\!\!~\!\!\text{ }{{e}^{*}}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ \end{matrix}$
上式中,${{a}^{*}}=({{a}_{1}}+{{b}_{2}}{{a}_{3}}),{{b}^{*}}=({{b}_{1}}+{{b}_{2}}{{b}_{3}}),{{e}^{*}}={{e}_{1}}+{{b}_{2}}{{e}_{3}}$。将本研究的结果(图4橙色线数据)带入公式(12),可得到IERGCR的线性回归关系为:

$IER=0.25-0.25\cdot GCR\ \ (50$%$\le GCR\le100$%)
即SNP分型检出率每升高1%,基因型填充错误率降低0.25%,或者说基因型填充准确率提高0.25%。当SNP的检出率为100%时,SNP基因型的填充错误率接近零。值得说明的是,本模拟研究只是一种与实际近似的理想情况,但在实际情形中,100%的SNP分型检出率不一定保证100%的基因型填充准确率。就本研究结果而言,当SNP分型检出率从100%分别降低到95%和90%时,填充错误率从0%分别提高到1.25%和2.5%。

本研究结果表明,当SNP分型检出率在85%~95%范围内时,根据公式(1)可以得出分型错误率在1.19%~3.86%之间,根据公式(13)可知此时填充错误率在1.25%~3.75%之间。,若希望基因型填充准确率达到理想状况,即基因型填充准确率≥98%,则基因型填充错误率应控制在2%以内,此时SNP分型检出率应控制在90%以上(图4虚线所示)。

3讨论

SNP分型检出率和错误率是SNP分型过程中的两个重要参数,也是影响后续基因型填充和遗传数据分析准确性的关键因素。关于二者的关系,以及它们对于后续基因型填充的影响,目前没有系统的报道。本研究表明,若SNP分型的检出率和错误率随机发生,二者相互独立,且不存在显著相关,基因型填充的准确率几乎不受SNP分型检出率的影响。因此,在填充回50K SNP基因型时,即使有50%的SNP基因型数据缺失,只要缺失是随机发生,已检出的SNP对于基因组也具有足够的覆盖率和基因型填充的能力[34]。本研究结论与Zhang等[35]的报道有所不同。Zhang等[35]研究发现,当缺失基因型的比率在10%~30%范围内,对基因型填充的准确率几乎没有明显影响;当缺失基因型的比率在30%~50%之间时,对基因型填充的准确率有明显影响;如果缺失基因型的比率在50%以上,基因型填充的准确率会大幅度降低。导致二者结果差异的原因是研究中使用的SNP数量不同。Zhang等[35]使用的SNP数量为5K,而本研究使用的SNP数量为50K。5K SNP对基因组的覆盖程度有限,如果再缺失30%~50%或更多,对后续基因型填充准确率的影响是非常明显的。因此本研究的结果更加适用于中、高密度SNP芯片的基因型填充。事实上,如果仅基于群体的连锁不平衡信息(不考虑家系资料),从更低密度(如5K以下)的基因型填充到中、高密度SNP基因型,或者SNP座位缺失基因型的比例很高,则SNP分型缺失率可能对后续的基因型填充准确率会产生不可忽视的影响。本研究在美国荷斯坦牛数据的模拟研究中发现,当SNP分型的缺失率达到90%以上,即SNP分型检出率不到10%时,也会显著影响基因型填充的准确率。因此,SNP分型检出率对于后续基因型填充准确率的影响不是一个简单的基因型缺失多少的问题,而是涉及到未缺失的SNP位点对于基因组的覆盖程度问题。本研究结果表明:在SNP对基因组有较高覆盖程度的情况下,基因型填充的错误率主要取决于填充以前的SNP分型错误率,SNP分型错误越多,基因型填充的准确率就越低。在SNP分型准确率不高的情况下,试图简单地通过基因型填充来提高SNP分型准确率是不可行的,因为基因型填充方法本身并不能够有效矫正或降低填充后的基因型错误。可能的原因是:第一,目前的基因型填充的方法和软件主要以填补缺失基因型为主,大多不会自动检查和矫正目标群体中的已知基因型错误;第二,在基因型填充过程中,对于目标群体中未知基因型的填充是依据已知基因型所推测的单倍型来实现的。因此目标群体中的已知基因型错误就可能会误导对未知基因型的推测,甚至有可能会放大基因型填充的错误。

但是,当样本DNA的品质较差和有效DNA数量较少时,基因型填充的准确率受SNP分型检出率和SNP分型错误率两个因素的影响,其原因在于:SNP分型错误率往往随着SNP分型检出率的降低而升高,基因型填充的错误率也随之升高。这种情形常见于胚胎的基因型分型和填充。例如,Illumina和Affymetrix SNP芯片都需要> 200 ng DNA才能保证高质量的SNP分型。但胚胎活组织检测仅含有8~10个细胞,大约可产生0.07 ng的DNA。基于目前的测序技术,可以对极其微量的DNA进行基因分型,如具有多位移扩增技术的全基因组扩增(whole-genome amplification with multiple displacement amplification, WGA-MDA)技术[36]。但是,胚胎SNP基因型的填充,仍是一个有待深入研究的问题。此外,如果目标群体有系谱资料和与亲本相同芯片的基因型数据,则可以在基因型填充之前或/和之后,校正每个动物个体基因型的孟德尔误差,作为进一步提升基因型填充准确性的有效措施。所谓基因型的孟德尔误差,是指在某一个基因座位上父母和后代的基因型在遗传上不一致[37]。例如,父本某SNP位点的基因型为AA型,母本为AB型,但其后代在该位点的检测结果却为BB型,那么这就是一个孟德尔误差。本研究结果表明,有30%左右的基因型错误是可以检测的孟德尔误差。因此,如果在基因型填充之前先矫正孟德尔误差,预计填充后的基因型错误可以降低大约1/4~1/3。此外,对于填充后基因型的孟德尔误差的校正也是必要的。

理论上,如果DNA的质量较好且数量较充足,则SNP分型的检出率和错误率之间往往不存在显著的相关关系,因此可以将SNP分型检出率的质量保证(quality assurance, QA)阈值设为90%以下,因为基因型填充的准确率主要决定于原始SNP分型的正确率。但实际应用中,当SNP分型检出率低于90%时,SNP分型的错误率会随之增加,二者彼此独立的假设就不再成立。本研究表明,不论哪种情况下,为保证基因型填充的准确率,SNP分型检出率的QA阈值不宜低于90%。最后需要说明的是,本研究在探讨SNP分型过程中的检出率和错误率对缺失基因型填充的影响时,所使用的是牛中密度50K SNP芯片,其结论适用于中密度和高密度芯片基因型的填充,但不一定完全适用于从低密度或超低密度SNP基因型到中密度或高密度基因型的填充。

附录:

附表1见文章电子版www.chinagene.cn。

参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子

Blasco A, Toro MA . A short critical history of the application of genomics to animal breeding
LivestSci, 2014,166(8):4-9.

[本文引用: 1]

Thomson M . High-throughput SNP genotyping to accelerate crop improvement
Plant Breed Biotechnol, 2014,2(3):195-212.

URL [本文引用: 1]

Scott LJ, Mohlke KL, Bonnycastle LL, Willer CJ, Li Y, Duren WL, Erdos MR, Stringham HM, Chines PS, Jackson AU, Prokunina-Olsson L, Ding CJ, Swift AJ, Narisu N, Hu T, Pruim R, Xiao R, Li XY, Conneely KN, Riebow NL, Sprau AG, Tong M, White PP, Hetrick KN, Barnhart MW, Bark CW, Goldstein JL, Watkins L, Xiang F, Saramies J, Buchanan TA, Watanabe RM, Valle TT, Kinnunen L, Abecasis GR, Pugh EW, Doheny KF, Bergman RN, Tuomilehto J, Collins FS, Boehnke M . A genome-wide association study of type 2 diabetes in finns detects multiple susceptibility variants
Science, 2007,316(5829):1341-1345.

URL [本文引用: 1]

Duerr RH, Taylor KD, Brant SR, Rioux JD, Silverberg MS, Daly MJ, Steinhart AH, Abraham C, Regueiro M, Griffiths A, Dassopoulos T, Bitton A, Yang H, Targan S, Datta LW, Kistner EO, Schumm LP, Lee AT, Gregersen PK, Barmada MM, Rotter JI, Nicolae DL, Cho JH . A genome-wide association study identifies IL23R as an inflammatory bowel disease gene
Science, 2006,314(5804):1461-1463.

URL [本文引用: 1]

Meuwissen THE, Hayes BJ, Goddard ME . Prediction of total genetic value using genome-wide dense marker maps
Genetics, 2001,157(4):1819-1829.

[本文引用: 1]

Tan C, Bian C, Yang D, Li N, Wu ZF, Hu XX, Li MZ . Application of genomic selection in farm animal breeding
Hereditas(Beijing), 2017,39(11):1033-1045.

[本文引用: 1]

谈成, 边成, 杨达, 李宁, 吴珍芳, 胡晓湘, 李明洲 . 基因组选择技术在农业动物育种中的应用
遗传, 2017,39(11):1033-1045.

[本文引用: 1]

He J, Qian CS, Richard T Jr., Bauck S, Wu XL . Estimating genomic breed composition of individual animals using selected SNPs
Hereditas(Beijing), 2018,40(4):305-314.

[本文引用: 1]

何俊, 钱长嵩, Richard G.Tait Jr., Stewart Bauck, 吴晓林 . SNP芯片数据估计动物个体基因组品种构成的方法及应用
遗传, 2018,40(4):305-314.

[本文引用: 1]

vanEenennaam AL, Weigel KA, Young AE, Cleveland MA, Dekkers JCM . Applied animal genomics: results from the field
Annu Rev AnimBiosci, 2013,2(2):105-139.

[本文引用: 1]

Wiggans GR, Cole JB, Hubbard SM, Sonstegard TS . Genomic selection in dairy cattle: the USDA experience
Annu Rev AnimBiosci, 2017,5(1):309-327.

[本文引用: 1]

Akdemir D, Sánchez JI . Efficient breeding by genomic mating
Front Genet, 2016,7:210.

[本文引用: 1]

Marchini J, Howie B . Genotype imputation for genome-wide association studies
Nat Rev Genet, 2010,11(7):499-511.

[本文引用: 3]

He S, Ding XD, Zhang Q . Comparison of different genotype imputation methods
Chin J AnimSci, 2013,49(23):95-100.

[本文引用: 1]

何桑, 丁向东, 张勤 , 基因型填充方法介绍及比较
中国畜牧杂志, 2013,49(23):95-100.

[本文引用: 1]

Aittokallio T . Dealing with missing values in large-scale studies: microarray data imputation and beyond
BriefBioinform, 2009,11(2):253-264.

[本文引用: 1]

Weigel KA, de los Campos G, González-Recio O, Naya H, Wu XL, Long N, Rosa GJ, Gianola D . Predictive ability of direct genomic values for lifetime net merit of holstein sires using selected subsets of single nucleotide polymerphism markers
J Dairy Sci, 2009,92(10):5248-5257.

URL [本文引用: 1]

Felipe VP, Okut H, Gianola D, Silva MA, Rosa GJ . Effect of genotype imputation on genome-enabled prediction of complex traits: an empirical study with mice data
BMC Genet, 2014,15(1):149.

[本文引用: 1]

Zhang Z, Druet T . Marker imputation with low-density marker panels in dutchholstein cattle
J Dairy Sci, 2010,93(11):5487-5494.

URL [本文引用: 1]

Wu XL, Gianola D, Hu ZL, Reecy JM . Meta-analysis of quantitative trait association and mapping studies using parametric and non-parametric models
J BiomBiostat, 2011,1:1-9.

[本文引用: 1]

Lopes FB, Wu XL, Li H, Xu J, Perkins T, Genho J, Ferretti R, Tait RG Jr, Bauck S, Rosa GJ . Improving accuracy of genomic prediction in Brangus cattle by adding animals with imputed low-density SNP genotypes
J Anim Breed Genet, 2018,135(1):14-27.

URL [本文引用: 1]

Li Y, Willer C, Sanna S, Abecasis G . Genotype imputation
Annu Rev Genomics Hum Genet, 2009,10:387-406.

URL [本文引用: 1]

Chen L, Li C, Sargolzaei M, Schenkel F . Impact of genotype imputation on the performance of GBLUP and Bayesian methods for genomic prediction
PLoS One, 2014,9(7):e101544.

URL [本文引用: 1]

Pimentel ECG, Edel C, Emmerling R, Götz KU . How imputation errors bias genomic predictions
J Dairy Sci, 2015,98(6):4131-4138.

URL [本文引用: 1]

Browning BL, Browning SR . A unified approach to genotype imputation and haplotype-phase inference for large data sets of trios and unrelated individuals
Am J Hum Genet, 2009,84(2):210-223.

URL [本文引用: 1]

Ventura RV, Lu D, Schenkel FS, Wang Z, Li C, Miller SP . Impact of reference population on accuracy of imputation from 6K to 50K single nucleotide polymorphism chips in purebred and crossbreed beef cattle
J AnimSci, 2014,92(4):1433-1444.

[本文引用: 1]

Roshyara NR, Scholz M . Impact of genetic similarity on imputation accuracy
BMC Genet, 2015,16(1):90.

[本文引用: 1]

Purfield DC, McClure M, Berry DP . Justification for setting the individual animal genotype call rate threshold at eighty-five percent
J AnimSci, 2016,94(11):4558-4569.

[本文引用: 1]

Boison SA, Santos DJA, Utsunomiya AHT, Carvalheiro R, Neves HHR, O’Brien AMP, Garcia JF, Sölkner J, da Silva MVGB . Strategies for single nucleotide polymorphism (SNP) genotyping to enhance genotype imputation in Gyr (Bosindicus) dairy cattle: comparison of commercially available SNP chips
J Dairy Sci, 2015,98(7):4969-4989.

URL [本文引用: 1]

Ventura RV, Miller SP, Dodds KG, Auvray B, Lee M, Bixley M, Clarke SM, McEwan JC . Assessing accuracy of imputation using different SNP panel densities in a multi-breed sheep population
Genet SelEvol, 2016,48(1):71.

[本文引用: 1]

Mitt M, Kals M, Pärn K, Gabriel SB, Lander ES, Palotie A, Ripatti S, Morris AP, Metspalu A, Esko T, Mägi R, Palta P . Improved imputation accuracy of rare and low-frequency variants using population-specific high-coverage WGS-based imputation reference panel
Eur J Hum Genet, 2017,25(7):869-876.

[本文引用: 1]

Hess MA, Rhydderch JG, LeClair LL, Buckley RM, Kawase M, Hauser L . Estimation of genotyping error rate from repeat genotyping, unintentional recaptures and known parent-offspring comparisons in 16 microsatellite loci for brown rockfish (Sebastesauriculatus)
MolEcolResour, 2012,12(6):1114-1123.

[本文引用: 1]

Wall JD, Tang LF, Zerbe B, Kvale MN, Kwok PY, Schaefer C, Risch N . Estimating genotype error rates from high-coverage next-generation sequence data
Genome Res, 2014,24(11):1734-1739.

URL [本文引用: 1]

Wang J . Estimating genotyping errors from genotype and reconstructed pedigree data
Methods EcolEvol, 2018,9(1):109-120.

[本文引用: 1]

Sargolzaei M, Chesnais JP, Schenkel FS . A new approach for efficient genotype imputation using information from relatives
BMC Genomics, 2014,15(1):478.

URL [本文引用: 1]

Calus MP, Bouwman AC, Hickey JM, Veerkamp RF, Mulder HA . Evaluation of measures of correctness of genotype imputation in the context of genomic prediction: a review of livestock applications
Animal, 2014,8(11):1743-1753.

URL [本文引用: 1]

Wu XL, Xu J, Feng G, Wiggans GR, Taylor JF, He J, Qian C, Qiu J, Simpson B, Walker J, Bauck S . Optimal design of low-density SNP arrays for genomic prediction: algorithm and applications
PLoS One, 2016,11(9):e0161719.

URL [本文引用: 1]

Zhang B, Zhi D, Zhang K, Gao G, Limdi NN, Liu N . Practical consideration of genotype imputation: sample size, window size, reference choice, and untyped rate
Stat Interface, 2011,4(3):339-352.

URL [本文引用: 3]

Spits C, Le Caignec C, de Rycke M, van Haute L, van Steirteghem A, Liebaers I, Sermon K . Whole-genome multiple displacement amplification from single cells
Nat Protoc, 2006,1(4):1965-1970.

[本文引用: 1]

Hao K, Li C, Rosenow C, Wong WH . Estimation of genotype error rate using samples with pedigree information—an application on the GeneChip Mapping 10K array
Genomics, 2004,84(4):623-630.

URL [本文引用: 1]

相关话题/数据 基因 遗传 错误率 动物