Measuring genetic connectedness between herds based on high density SNP markers
Ziwen Zhou, Xue Wang, Xiangdong Ding
通讯作者: 丁向东,博士,副教授,研究方向:猪遗传育种和统计遗传学。E-mail:xding@cau.edu.cn
编委: 李明洲
联合育种的准确性受到群体间遗传关联程度的影响。本研究通过比较基于系谱数据和基因组数据计算的群体遗传关联,探究高密度SNP标记在遗传关联估计中的应用前景。本研究同时使用了模拟数据和真实数据,采用6种不同的遗传关联计算方法,包括PEVD(prediction error variance of differences)、PEVD(x)、VED(variance of estimated difference)、CD(generalized coefficient of determination)、r(prediction error correlation)和CR(connectedness rating),比较基于构建不同的关系矩阵(A、G、Gs、G0.5和H矩阵)的群体间遗传关联。模拟数据和实际数据结果表明,除PEVD(x)和VED方法外,PEVD、CD、r和CR基于基因组信息的G、Gs和G0.5阵计算的遗传关联程度均高于基于系谱信息的A阵,基于同时利用系谱和基因组信息的H阵遗传关联结果一般介于A阵与G阵之间。当CR和r为0时,CD都较高,高估了群体遗传关联。用r度量3个遗传分化程度不同的猪场间遗传关联时,基于G阵的r值均为0.01,不能准确反映群体真实遗传关联。随着遗传力的提高,所有群体遗传关联评估方法都有所改善,但遗传力为0.1时,PEVD基于A阵结果优于G阵,中高遗传力性状用于估计遗传关联优于低遗传力性状。本研究证明高密度SNP标记比系谱信息估计群体间遗传关联更有优势,CR是衡量遗传关联稳健而可靠的评价指标,计算简单,受性状遗传力影响较小。PEVD可以作为补充,量化具体群体遗传关联下的育种值预测误差情况。G矩阵比Gs、G0.5阵能更好反映群体遗传关联。
The accuracy of genetic evaluations in different herds is affected by the degree of genetic connectedness among herds. In this study, we explored the application of high density SNP markers in the assessment of genetic connectedness by comparing the genetic connectedness based on pedigree data and genomic data. Six methods, including PEVD (prediction error variance of differences between estimated breeding values), PEVD (x), VED (variance of estimated difference between the herd effects), CD (generalized coefficient of determination), r (prediction error correlation) and CR (connectedness rating), were implemented to measure the genetic connectedness based on different relationship matrices (A, G, Gs, G0. 5 and H). Our results from both simulated data and SNP chip data indicated that, except for the PEVD (x) and VED methods, the genetic connectedness obtained by PEVD, CD, r and CR based on G. Gs and G0.5 matrices (using genome information only) were superior to those based on A matrix (using pedigree information only). Generally, for most approaches, the genetic connectedness based on H matrix (using both pedigree and genome information) was somewhere between A matrix and G matrices. CD could overestimate the degree of genetic connectedness as it was still very high when CR and r were close to 0. The method r could not accurately reflect the true genetic connectedness of the populations. It generated 0.01 of genetic connectedness for all three pig breeding farms, which were actually genetically different with each other. With increasing of heritability, the degree of genetic connectedness obtained by all methods were increased as well. However, in the case of heritability 0.1, PEVD based on A matrix performed better than based on G matrix, suggesting that traits with medium and high heritability are more suitable for the assessment of genetic connectedness compared to traits with low heritability. Our findings indicated that high-density SNP markers have advantages over pedigree analysis for the measurement of genetic connectedness, and CR is a robust and reliable method to assess genetic connectedness. Further, CR is easily calculated and less affected by heritability of trait. PEVD is good supplement to quantify the prediction errors of estimated breeding values under the specific genetic connectedness. In comparison, G matrix can reflect genetic connectedness better than its extensions Gs and G0.5 matrix.
周子文, 王雪, 丁向东. 基于高密度SNP标记估计群体间遗传关联. 遗传[J], 2021, 43(4): 340-349 doi:10.16288/j.yczz.20-351
Ziwen Zhou.
群体遗传关联有多种估计方法,可以分为两大类:育种值估计预测误差方差和育种值比较的可靠性或相关系数。第一种主要有预测误差方差方法(prediction error variance of differences, PEVD)[4]、PEVD(x)[5]和场效应差异的估计方差(variance of estimated difference, VED)[4]。从理论上说,PEVD是一种较为理想的度量遗传关联的方法,该方法通过计算不同个体之间育种值(estimated breeding value, EBV)差异的预测误差方差,评价两个个体育种值比较的准确性,但该方法计算复杂,难以用于育种实践[4]。PEVD(x)和VED是PEVD的近似估计方法,PEVD(x)通过构建一个差异向量x近似估计PEVD,进行简化计算[5],VED主要计算场效应之间的预测误差方差[4]。第二类群体遗传关联估计方法主要有广义决定系数方法(generalized coefficient of determination, CD)[5]、预测误差相关系数(prediction error correlation, r)[6]和场间关联率(connectedness rating, CR)[7]。CD定义为估计育种值比较的可靠性,即预测值差异与真实值差异间相关系数的平方[5],r通过计算两个群体之间两两配对的预测误差相关系数均值来评价遗传关联程度[6]。CR主要计算场效应之间的相关,或者群体均值估计误差之间的相关[7]。
1 数据与方法
1.1 模拟数据
本研究采用GPOPSIM[12]软件模拟基因组数据。模拟了18条染色体,每条染色体长度为100 cM, 染色体总长度为18 M,总共模拟了306个QTL,随机分布在染色体组上。SNP标记和QTL的突变率分别为1.25×10-6和2.5×10-3。从每条染色体上均匀抽取2834个SNP,共51,012个SNP,生成基因型数据。表型数据由软件模拟生成,遗传力设定为0.3,遗传方差为2。群体模拟首先生成一个1000世代的历史群体,每个世代群体规模保持不变,均由300头公畜和300头母畜组成,公母随机交配,每头母畜产生10个后代,公母各半。从第1000个世代群体后代中随机抽取,生成两个亚群,每个亚群均由20头公畜和600头母畜构成。每个亚群内,每头公畜与30头母畜随机交配,每头母畜产生10个后代,公母比例1∶1,记为世代1。从世代2开始,每个亚群内均从上一世代随机选择20头公畜与1500头母畜交配,母畜产生后代数与性别比例同世代1,不同世代群体大小保持不变。重复上述过程,直至世代7,两个亚群间不发生遗传交流。两个亚群世代1至世代7所有个体均有表型,仅第5世代至第7世代每个亚群各有3000个体(每个公畜家系中一半个体)具有基因型数据。
1.2 真实数据
本研究同时利用3家国家生猪核心育种场(以下简称“核心场”)北京六马养猪科技股份有限公司(场代码BJLM,简称“北京六马”)、北京养猪育种中心(场代码BBSC,简称“养猪中心”)及新疆天康畜牧科技有限公司(场代码XJTC,简称“新疆天康”)2012~2019年大白猪数据。北京六马和养猪中心种猪来源于美国,新疆天康来源于加拿大。3家核心场生长性状达100 kg体重日龄和100 kg活体背膘厚表型数据分别为33,883、13,259和13,763条,系谱数据各有36,577、75,255和14,409条,具有SNP芯片基因型个体数为2382、1712和1239头。北京六马和养猪中心的基因型数据均采用PorcineSNP80K Beadchip芯片(简称80K)测定,共包含68,528个SNP位点;新疆天康的基因型数据则由PorcineSNP50K Beadchip芯片(简称50K)测定,共包含50,697个SNP位点。两种芯片均参照猪参考基因组11.1版本,除去未知染色体上的位点后,两款芯片共同位点数为48,675。芯片基因型填充步骤分两步进行,首先对80K芯片个体进行填充,剔除未知染色体和常染色体上的位点,之后将其作为参考群对所有50K芯片个体进行填充,芯片数据填充处理使用beagle[13]软件完成。填充后对芯片数据进行如下质控处理:(1)个体检出率(call rate)达到90%以上;(2)单个SNP检出率达到90%以上;(3)SNP位点的最小等位基因频率不低于0.05;(4)每个SNP位点哈代-温伯格平衡检验P值大于10-6。质控筛选后,所有基因型个体、45569个SNP位点满足要求。
1.3 育种值估计模型
其中,y为单一性状表型值向量(实际数据用达100kg体重日龄);b为场效应向量;a为加性遗传随机效应或育种值向量,服从正态分布N(0,$K\sigma _{a}^{2}$),$\sigma _{a}^{2}$为加性遗传方差,K阵为亲缘关系矩阵,可使用A阵、G阵、H阵等,主要基于系谱信息、基因组信息或同时利用系谱-基因组信息建立;e为随机残差,服从正态分布N(0, I$\sigma _{e}^{2}$)),$\sigma _{e}^{2}$为残差方差;X和Z为相应的结构矩阵。
1.4 遗传关联计算方法
本研究使用PEVD、PEVD(x)、VED、CD、r和CR等6种方法估计群体遗传关联。PEVD计算公式如下:$\begin{align} & \text{PEVD}({{{\hat{\mu }}}_{i}}-{{{\hat{\mu }}}_{j}})=[\text{PEV}({{{\hat{\mu }}}_{i}})+\text{PEV}({{{\hat{\mu }}}_{j}})- \\ & \ \ \ \ 2\text{PEC}({{{\hat{\mu }}}_{i}},{{{\hat{\mu }}}_{j}})]=(\text{C}_{ii}^{22}+\text{C}_{jj}^{22}-2\text{C}_{ij}^{22})\sigma _{e}^{2} \\ \end{align}$
其中$\operatorname{PEV}({{\hat{u}}_{i}})$、$\operatorname{PEV}({{\hat{u}}_{j}})$和$\operatorname{PEC}({{\hat{u}}_{i}},{{\hat{u}}_{j}})$分别为个体加性效应的预测误差方差和协方差,${{\mathbf{C}}^{22}}$矩阵为系数矩阵逆矩阵的子矩阵,$\sigma _{e}^{2}$为残差方差。以上参数均可通过育种值估计模型求解获得。群体间PEVD通过计算属于不同群体的所有个体两两配对的PEVD均值得到;群体内PEVD通过计算单个群体内的所有个体两两配对的PEVD均值得到。
PEVD(x)方法参照Lalo?等[5]。VED、CD、r 和 CR 方法计算公式如下:
$\text{C}{{\text{D}}_{ij}}=1-\lambda \frac{\mathbf{C}_{ii}^{22}+\mathbf{C}_{jj}^{22}-2\mathbf{C}_{ij}^{22}}{{{\mathbf{K}}_{ii}}+{{\mathbf{K}}_{jj}}-2{{\mathbf{K}}_{ij}}}$
其中${{\mathbf{K}}_{ii}}$、${{\mathbf{K}}_{jj}}$和${{\mathbf{K}}_{ij}}$为关系矩阵中的相应元素,$\lambda $为随机残差与加性方差的比值;$\text{var}(\hat{h}_{1})$、$\text{var}(\hat{h}_{2})$和$\text{cov}(\hat{h}_{1},\hat{h}_{2})$分别为场效应的方差和协方差。与PEVD类似,群体间的CD和r计算方法为群体间所有个体两两匹配求均值。本研究中所有遗传关联方法计算均通过自编R程序实现。6种计算方法中,CD、r和CR范围在0~1之间,当r或CR为0时,说明两个群体之间缺乏遗传关联,CD、r和CR值越大说明遗传关联程度越高。PEVD、PEVD(x)和VED值越小,说明遗传关联程度越高。
1.5 亲缘关系矩阵构建
${{\mathbf{G}}_{{{\mathbf{s}}_{\mathbf{ij}}}}}=\frac{({{\mathbf{G}}_{\text{smax}}}-{{\mathbf{G}}_{\text{smin}}})({{\mathbf{G}}_{ij}}-{{\mathbf{G}}_{\min }})}{{{\mathbf{G}}_{\max }}-{{\mathbf{G}}_{\min }}}$
2 结果与分析
2.1 群体关联估计方法和关系矩阵影响
表1反映了基于模拟数据,6种群体关联估计方法和5种关系矩阵对群体关联估计的影响。以模拟数据第5世代两个亚群群体关联结果为例,使用G阵相较于A阵能够提高群体遗传关联。PEVD从1.65降至1.32,G0.5阵则进一步使PEVD降低至0.9285。基于Gs阵估计的PEVD高于G阵,但仍低于A阵,同时利用系谱和基因组信息的H阵PEVD与G阵接近。作为PEVD的扩展,PEVD(x)和VED方法却呈现了相反趋势,G、Gs、G0.5阵结果劣于A阵,基于A阵的PEVD(x)和VED过低,接近于0。由于受A阵影响,基于H阵的PEVD(x)和VED也很小,分别为0.002和0.004。G、Gs、G0.5矩阵PEVD(x)和VED在0.27~0.42间变化,G0.5最小,Gs最大。Table 1
Table 1
方法 | 关系矩阵 | ||||
A | G | G0.5 | Gs | H | |
PEVD | 1.6471 | 1.3218 | 0.9285 | 1.5287 | 1.3725 |
PEVD(x) | 0.0003 | 0.3248 | 0.2662 | 0.4165 | 0.0016 |
VED | 0.0019 | 0.3279 | 0.2690 | 0.4196 | 0.0037 |
CD | 0.5882 | 0.6896 | 0.6790 | 0.7366 | 0.6550 |
r | 0 | 0.0008 | 0.7478 | NaN | 0.0003 |
CR | 0 | 0.0031 | 0.9109 | 0.0035 | 0.0200 |
表2反映了基于3家核心场的群体关联估计方法和关系矩阵对群体关联大小的影响。由于3个场之间没有系谱联系,没有考虑综合系谱和基因组信息的H矩阵。主成分分析表明3个群体在基因组信息上存在联系,如图1所示,养猪中心与北京六马群体都为美系大白,遗传背景较为接近,新疆天康和养猪中心群体分化最大。场间关联结果也基本表明,大多数情况下养猪中心与北京六马群体关联更高些。在PEVD、PEVD(x)和VED三种方法中,由于没有系谱联系,基于A阵的PEVD最大,例外情况是,养猪中心与新疆天康之间的遗传关联,基于G阵和Gs阵计算的PEVD高于A阵。所有情况下,G阵和Gs阵PEVD结果接近,基于G0.5的PEVD最小。与模拟数据结果类似,PEVD(x)和VED方法基于G、Gs、G0.5阵结果劣于A阵,基于A阵的PEVD(x)和VED为0.02~0.06,远低于G阵及其扩展矩阵。在不同G阵结果中,G0.5阵PEVD(x)和VED最小,但对于养猪中心与新疆天康,G0.5阵PEVD(x)和VED高于G阵与Gs阵,所有情况下,G阵与Gs阵结果类似。基于A阵计算的3家核心场之间的预测误差相关r和关联率CR均为0,但决定系数CD较高,在0.55~0.67之间,与模拟数据结果反映的趋势相似。使用基于基因组信息的G阵及其校正矩阵计算的r和CR都不为零,3个场基于G阵的 r均为0.01,CR分别为0.15、0.07和0.04。3个场基于Gs的r和CR与基于G阵接近,但3个场基于G0.5的r和CR很高,分别为(0.59,0.49,0.48)和(0.94,0.82,0.82)。同时,3个场基于G、Gs、G0.5的CD值与基于A阵相差不大,在0.59~0.68之间变化。
Table 2
Table 2
群体 | 方法 | 关系矩阵 | |||
A | G | Gs | G0.5 | ||
BJLM-BBSC | PEVD | 15.5600 | 11.9300 | 12.3100 | 9.0500 |
PEVD(x) | 0.0200 | 1.0600 | 1.1100 | 0.8600 | |
VED | 0.0500 | 1.0800 | 1.1300 | 0.8800 | |
CD | 0.5500 | 0.6700 | 0.6800 | 0.6700 | |
r | 0 | 0.0100 | 0.0200 | 0.5900 | |
CR | 0 | 0.1500 | 0.1500 | 0.9400 | |
BJLM-XJTC | PEVD | 15.1500 | 14.1300 | 13.4300 | 11.3200 |
PEVD(x) | 0.0200 | 2.5200 | 2.3300 | 2.3000 | |
VED | 0.0400 | 2.5400 | 2.3500 | 2.3300 | |
CD | 0.5600 | 0.6200 | 0.6100 | 0.6200 | |
r | 0 | 0.0100 | 0.0100 | 0.4900 | |
CR | 0 | 0.0700 | 0.0700 | 0.8200 | |
BBSC-XJTC | PEVD | 13.2300 | 14.5100 | 13.9800 | 12.200 |
PEVD(x) | 0.0300 | 2.1600 | 2.0500 | 2.4800 | |
VED | 0.0600 | 2.1900 | 2.0800 | 2.5100 | |
CD | 0.6200 | 0.6000 | 0.5900 | 0.5900 | |
r | 0 | 0.0100 | 0.0100 | 0.4800 | |
CR | 0 | 0.0400 | 0.0400 | 0.8200 |

Fig. 1Principal component analysis of three pig breeding farms
2.2 世代对群体关联影响
Table 3
Table 3The changes of genetic connectedness based on G matrix in different generations of simulated data
方法 | 世代 | ||
5 | 6 | 7 | |
PEVD | 1.3218 | 1.4136 | 1.5150 |
PEVD(x) | 0.3248 | 0.4380 | 0.5835 |
VED | 0.3279 | 0.4412 | 0.5866 |
CD | 0.6896 | 0.6733 | 0.6616 |
r | 0.0008 | 0.0001 | 0 |
CR | 0.0031 | 0.0002 | 0 |
Table 4
Table 4Summary of genetic connectedness obtained by different approaches based on relationship matrices A, G and H under different levels of heritability
方法 | 关系矩阵 | 遗传力(h2) | |||
0.1 | 0.3 | 0.5 | 0.7 | ||
PEVD | A | 1.8900 | 1.6500 | 1.3300 | 0.9200 |
G | 2.1900 | 1.3200 | 0.8900 | 0.3600 | |
H | 1.9000 | 1.3700 | 1.0100 | 0.6500 | |
PEVD(x) | A | 0.0003 | 0.0003 | 0.0003 | 0.0003 |
G | 0.4000 | 0.3200 | 0.2700 | 0.2200 | |
H | 0.0095 | 0.0016 | 0.0007 | 0.0003 | |
VED | A | 0.0063 | 0.0019 | 0.0010 | 0.0006 |
G | 0.4200 | 0.3300 | 0.2700 | 0.2200 | |
H | 0.0120 | 0.0040 | 0.0020 | 0.0010 | |
CD | A | 0.5300 | 0.5900 | 0.6700 | 0.7700 |
G | 0.4900 | 0.6900 | 0.7900 | 0.9200 | |
H | 0.5200 | 0.6600 | 0.7500 | 0.8400 | |
r | A | 0 | 0 | 0 | 0 |
G | 0.0003 | 0.0008 | NaN | NaN | |
H | 0.0003 | 0.0003 | NaN | NaN | |
CR | A | 0 | 0 | 0 | 0 |
G | 0.0020 | 0.0030 | 0.0030 | 0.0100 | |
H | 0.1500 | 0.0200 | 0.0090 | 0.0050 |
Table 5
Table 5Averaged genetic connectedness (PEVD) within group under different levels of heritability
群体 | 关系矩阵 | 遗传力 | |||
0.1 | 0.3 | 0.5 | 0.7 | ||
1 | A | 1.8900 | 1.6500 | 1.3300 | 0.9200 |
G | 1.7400 | 0.9600 | 0.6300 | 0.0800 | |
H | 1.8800 | 1.1000 | 0.6900 | 0.3700 | |
2 | A | 1.8900 | 1.6500 | 1.3300 | 0.9200 |
G | 1.8300 | 1.0400 | 0.6000 | 0.2100 | |
H | 1.8900 | 1.6500 | 1.3300 | 0.9200 |
3 讨论
3.1 高密度SNP标记估计群体关联的优势
通过系谱数据估计群体遗传关联程度时,一个常见的问题是系谱不全或存在错误,或者无法从系谱中追溯联系。本研究表明,使用基因组数据能够捕捉系谱中不存在的、由更久远的共同祖先导致的个体间遗传关联。即使根据系谱能够建立群体关联,与基于系谱构建的A矩阵相比,基因组数据可以更加准确地估计个体间亲缘关系[10],提高群体关联估计准确性。本研究模拟数据和实际数据结果都显示,大部分遗传关联估计方法基于高密度SNP标记建立的个体亲缘关系矩阵都优于基于A矩阵。这与Yu等[16]、Zhang等[17]研究结果一致,说明利用SNP标记估计群体关联更有优势。3.2 群体间遗传关联度量方法比较
PEVD(x)和VED方法为PEVD方法的近似估计方法,这两种方法相比于PEVD方法计算简单,但本研究模拟数据和实际数据结果表明,相同条件下PEVD(x)和VED均小于PEVD(表1,表2),PEVD(x)和VED 基于G、Gs、G0.5及H阵结果劣于A阵,基于A阵的PEVD(x)和VED过低,接近于0(表1,表2),说明两个群体个体间育种值预测误差很小,这与实际情况有很大偏离。而且,当遗传力从0.1提高到0.7,PEVD(x)方法基于A阵一直保持为0.0003,但基于G阵却在变小(表4),说明PEVD(x)和VED不是理想的度量群体关联的方法。PEVD及其近似估计方法的一个缺点是取值没有范围,如表1和表2所示,模拟数据与真实数据估计值差异很大,因此难以判断遗传关联程度。另外PEVD容易受到群体大小和结构的影响,例如两个群体基于背膘厚性状计算得到的PEVD为0.8 mm,这个结果对于两个大群体而言可能表示关联程度较差,但是对于两个小群体可能表示关联程度较好[7]。CD、r和CR方法取值范围在0~1之间,可以比较好度量群体关联。但是CD值即使系谱上不存在遗传联系仍然很高,而CR和r为0(表1,表2)。当估计养猪中心和新疆天康群体关联时,CD基于A阵最高(表2),与其他统计量不太一样,表明CD容易高估群体关联程度。统计量r大多数情况下低于CR,但是在实际数据中,不能准确反映群体间的实际群体关联。当用r度量养猪中心、北京六马和新疆天康3个群体间遗传关联时,基于G阵的r值均为0.1,区分不出群体的分化远近。而养猪中心-北京六马、北京六马-新疆天康、养猪中心-新疆天康基于G阵的CR分别为0.15、0.07、0.04,能很好说明群体之间的遗传关联情况。越来越多研究表明,CR可以作为衡量群体关联程度的稳定方法[21],MATHUR等[22]利用加拿大育种数据进行分析,结果显示场间平均遗传关联CR大于等于0.03时开展联合遗传评估效果较好。这表明虽然通过系谱无法开展3个核心场间的联合遗传评估,但是可以开展基于基因组信息的基因组联合评估,如北京地区的大白猪基因组联合育种[23]。而且与PEVD相比,CR不需要进行个体间两两匹配求均值,计算简单,并且可以同时估计多个群体之间的遗传关联程度。
3.3 基于SNP标记关系矩阵比较
3.4 遗传力影响
本研究设定了高、中、低4种遗传力水平检验其对群体关联估计方法影响。大多数情况下,群体关联统计量会随着遗传力升高而改善,但就像群体内个体遗传关联也呈现相同变化一样(表5),不能说明群体间关联程度有提高。遗传力升高会提高育种值估计准确性,降低了育种值预测误差,因而改善了相应的群体关联统计量。因此,在育种实践中,遗传力不同的性状估计的遗传关联结果之间缺乏可比性。另外,本研究发现,低遗传力(0.1)情况下,基于A阵的PEVD优于G阵,与大多数情况下G阵优于A阵相反,说明低遗传力性状不太适合用来估计群体遗传关联。参考文献 原文顺序
