0 引言
【研究意义】依据现有的标准进行植物品种分子鉴定是植物品种权授予、品种审定、种业市场管理与品种权案件判决的重要依据。然而,现有的品种分子鉴定标准仅检测了植物品种基因组上部分分子标记位点,存在抽样误差,但标准中并没有给出抽样误差的估算方法与鉴定结论的可靠性估算方法,导致鉴定结论在应用中常被质疑是否可靠。估算并验证分子标记位点的抽样误差与鉴定结论的可靠性,为品种分子鉴定标准的各种应用提供科学依据。【前人研究进展】植物品种鉴定分为田间表型测试与分子标记测试2种方法。田间种植鉴定通过观察申请品种与近似品种在相同生长条件下的性状差异,判断申请品种是否存在特异性。为保证鉴定结果的可靠性,田间试验通常需持续2—3年。田间表型测试具有周期长、受环境影响等缺点。分子标记测试则不受环境影响,可以快速检测品种间的异同,从而辅助实现品种快速授权或品种权侵权案件的判决。分子标记鉴定方法通过对分子标记位点进行检测,将申请品种与近似品种间的差异标记数与规定的阈值进行比较,判断两者是否为不同的品种。目前,品种分子标记鉴定主流技术为微卫星(simple sequence repeats,SSRs)标记。SSR标记是利用基因组内广泛存在的、中性的简单重复序列的长度变异鉴定品种,具有标记多态性高[1]、鉴定方法简单、种内[2,3]甚至种间[4,5,6]通用等突出优势。目前,大多数植物品种分子鉴定行业标准或者国家标准都是根据SSR标记制定的。然而,SSR标记具有检测通量低等不足,有逐步被单核苷酸变异(single nucleotide polymorphisms,SNPs)标记所取代的趋势,目前,部分作物如水稻[7]等已经基于SNP标记制定了品种鉴定的行业标准。【本研究切入点】任何分子标记方法都只能鉴定品种基因组上的部分位点,必然存在标记位点的抽样误差。大多数基于SSR标记的品种分子鉴定标准的标记位点数不足50个,抽样误差十分明显。因而,利用现有的品种分子鉴定标准获得的鉴定结论用于品种权授权、品种审定和解决品种权纠纷时,可靠性常常被质疑。然而,现有的植物品种分子鉴定标准中均无标记位点误差与结论可靠性的计算方法,相关研究也十分有限。【拟解决的关键问题】本研究估算了品种分子标记鉴定的位点抽样误差与结论的可靠性,进而将品种间关系划分为红区、绿区和黄区,对应高概率保障为相同或近似品种、高概率保障为不同品种和无概率保障的待定品种,为品种分子鉴定的行业标准与国家标准的应用提供了科学依据。1 材料与方法
1.1 品种间关系鉴定的概率模型
设品种分子鉴定的行业标准或国家标准中规定的检测位点的数目为N个,品种A和B间观察到的差异位点的数目为x(x≤N)个。标准中规定区分相同和不同品种的差异位点的数目的阈值标准为n(n≤N)个。那么,根据行业标准或国家标准,若x<n,则判定品种A和B为相似或相同品种,否则,为不同品种。由于N个检测位点只是基因组上所有标记位点的一次抽样,因此,观察到的差异位点的数目x值的大小存在抽样误差。排除抽样误差后,品种A和B间的真实的差异位点(后文称为期望的差异位点)数目t值可以更加准确地判定品种A和B的关系。根据分子鉴定标准,品种A与B为相同品种的概率为P=∑0≤t<n P(t|x),其中,P(t|x)为观察到的差异位点的数目为x的条件下,期望的差异位点的数目为t的条件概率。根据贝叶斯公式:
P(t|x)=$\frac{P(t){\times}P({\chi{\mid}}t)}{{{\sum}^{N}_{t=0}}{{P(t){\times}P({\chi{\mid}}t)}}}\qquad$(1)
其中,x服从于试验次数为N且发生概率为$\frac{t}{N}$的二项分布,即x~Bin(N,$\frac{t}{N}$),P(t)为利用分子标准鉴定品种的所有试验中,期望的差异位点的数目为t的概率。假定t服从均匀分布(原因见讨论),那么,
P=$\frac{\sum\nolimits_{t=0}^{n-1}{\left( \begin{align} & N \\ & x \\ \end{align} \right)}{{\left( \frac{t}{N} \right)}^{x}}{{\left( 1-\frac{x}{N} \right)}^{N-x}}}{\sum\nolimits_{t=0}^{N}{\left( \begin{align} & N \\ & x \\ \end{align} \right)}{{\left( \frac{t}{N} \right)}^{x}}{{\left( 1-\frac{x}{N} \right)}^{N-x}}}=\frac{\sum\nolimits_{t=0}^{n-1}{{{\left( \frac{t}{N} \right)}^{x}}{{\left( 1-\frac{x}{N} \right)}^{N-x}}}}{\sum\nolimits_{t=0}^{N}{{{\left( \frac{t}{N} \right)}^{x}}{{\left( 1-\frac{x}{N} \right)}^{N-x}}}}$
(2)
设接受品种A与B为相同品种的概率保障为1-α,那么,当P≥1-α,品种A与B的关系落入红区,判定它们为相同品种或近似品种;当P≤α时,品种A与B的关系落入绿区,判定它们为不同品种;当α<P<1-α时,品种A与B的关系落入黄区,无法准确判定它们之间的关系。
1.2 品种间关系鉴定的概率模型的验证
水稻品种分子鉴定标准[8]规定的检测位点为N=48个SSR标记位点,区分相同与不同品种的差异位点的数目,即判定阈值n=2。为验证概率模型,共选择了8个水稻品种,利用AmpSeq-SSR的方法为每个品种鉴定了3 205个SSR标记位点,品种的具体名称见表1,SSR标记位点选取、检测方法与检测结果见我们近期发表的论文[9]。3 205个标记位点抽样量较大,抽样误差小,因此,品种间期望的差异位点的数目可以估计为t=$\frac{N\times m}{M}=\frac{48m}{M}$,其中,M(M≤3 205)为两品种中均成功获得了基因分型的检测位点的数目;m为共同检出位点中,观察到的差异位点的数目。根据水稻分子鉴定标准,当t<n=2时,两品种为相同或相似品种,否则为不同品种,该判定结果为品种间关系的参考值。Table 1
表1
表1利用概率模型可以准确判定品种间关系
Table 1The relationship between varieties can be determined by probability model
品种1 Variety1 | 品种2 Variety2 | t | 品种间关系的参考值1) Reference values of relationships between varieties1) | 品种间关系的判定结论2) The determined relationship between varieties2) | ||
---|---|---|---|---|---|---|
不同品种 Different | 相同或近似品种 Identical or similar | 不可判定 Undetermined | ||||
奥富B AofuB | 江育F8412A Jiangyu F8412A | 2.83 | 不同品种 Different | 4295 | 0 | 5705 |
哈04-29 Ha 04-29 | 越光H3号 Yueguang No. H3 | 3.12 | 不同品种 Different | 4727 | 0 | 5273 |
吉农大858 Jinongda 858 | 越光H3号 Yueguang No. H3 | 3.22 | 不同品种 Different | 4927 | 0 | 5073 |
哈04-29 Ha 04-29 | 吉农大858 Jinongda 858 | 3.41 | 不同品种 Different | 5192 | 0 | 4808 |
哈04-29 Ha 04-29 | 圣稻808 Shengdao 808 | 4.08 | 不同品种 Different | 6185 | 0 | 3815 |
越光H3号 Yueguang No. H3 | 圣稻808 Shengdao 808 | 4.18 | 不同品种 Different | 6395 | 0 | 3605 |
吉农大858 Jinongda 858 | 圣稻808 Shengdao 808 | 4.94 | 不同品种 Different | 7409 | 0 | 2591 |
t2092 | 华占 Huazhan | 8.78 | 不同品种 Different | 9581 | 0 | 419 |
江育F8412A Jiangyu F8412A | 华占 Huazhan | 8.98 | 不同品种 Different | 9581 | 0 | 419 |
t2092 | 江育F8412A Jiangyu F8412A | 8.93 | 不同品种 Different | 9600 | 0 | 400 |
奥富B AofuB | 华占 Huazhan | 9.26 | 不同品种 Different | 9650 | 0 | 350 |
奥富B AofuB | t2092 | 9.84 | 不同品种 Different | 9741 | 0 | 259 |
哈04-29 Ha 04-29 | 奥富b Aofub | 21.22 | 不同品种 Different | 10000 | 0 | 0 |
哈04-29 Ha 04-29 | t2092 | 24.00 | 不同品种 Different | 10000 | 0 | 0 |
哈04-29 Ha 04-29 | 江育F8412A Jiangyu F8412A | 24.14 | 不同品种 Different | 10000 | 0 | 0 |
哈04-29 Ha 04-29 | 华占 Huazhan | 25.39 | 不同品种 Different | 10000 | 0 | 0 |
吉农大858 Jinongda 858 | 奥富B AofuB | 20.59 | 不同品种 Different | 10000 | 0 | 0 |
吉农大858 Jinongda 858 | t2092 | 22.66 | 不同品种 Different | 10000 | 0 | 0 |
吉农大858 Jinongda 858 | 江育F8412A Jiangyu F8412A | 22.99 | 不同品种 Different | 10000 | 0 | 0 |
吉农大858 Jinongda 858 | 华占 Huazhan | 23.42 | 不同品种 Different | 10000 | 0 | 0 |
奥富B AoFuB | 越光H3号 Yueguang No. H3 | 21.46 | 不同品种 Different | 10000 | 0 | 0 |
奥富B AofuB | 圣稻808 Shengdao 808 | 21.79 | 不同品种 Different | 10000 | 0 | 0 |
t2092 | 越光H3号 Yueguang No. H3 | 24.05 | 不同品种 Different | 10000 | 0 | 0 |
t2092 | 圣稻808 Shengdao 808 | 23.81 | 不同品种 Different | 10000 | 0 | 0 |
江育F8412A Jiangyu F8412A | 越光H3号 Yueguang No. H3 | 24.19 | 不同品种 Different | 10000 | 0 | 0 |
江育F8412A Jiangyu F8412A | 圣稻808 Shengdao 808 | 24.24 | 不同品种 Different | 10000 | 0 | 0 |
越光H3号 Yueguang No. H3 | 华占 Huazhan | 25.15 | 不同品种 Different | 10000 | 0 | 0 |
圣稻808 Shengdao 808 | 华占 Huazhan | 25.01 | 不同品种 Different | 10000 | 0 | 0 |
新窗口打开
从2个品种共同检测位点中随机抽取N=48个检测位点,获得每次抽样中观察到的差异位点的数目,即x的值。根据公式(2)计算P值,并与设定的α值比较,判定品种间的关系,称为品种间关系的判定结论。将品种间关系的判定结论与参考值比较,验证判定结论是否正确。
2 结果
2.1 利用概率模型可以准确鉴定品种间关系
对8个水稻品种的28对组合的3 205个SSR标记的分型结果进行了10 000次N=48个标记位点的随机抽样,每一次随机抽样相当于利用水稻SSR标记鉴定的行业标准[8]对一对品种进行了一次鉴定。利用公式(2)所示的概率模型,根据每次随机抽样结果判定品种组合间的关系,并验证判定结论的正确性,具体过程见材料与方法部分。结果表明,每个品种组合有4 295—10 000(42.95%—100%)次随机抽样在1-α=0.95的概率保障下,明确判定为不同品种(表1),品种间关系落入了绿区。把表1中的t值与水稻SSR标记鉴定的行业标准[8]中的判定阈值n=2比较,获得每一对品种组合间关系的参考值。品种组合间关系的参考值与判定结论比较表明,所有(100%)判定结论均是正确的,表明利用概率模型获得的品种间关系的判定结论的准确性很高。2.2 概率模型在品种权案件判决中的应用实例
最近(2017年8月3号),根据西瓜品种‘美丰’与‘欣美’间观察到的差异位点的数目x=7个,合肥市中级人民法院判决它们之间不构成品种权侵权;根据‘美丰’与‘辉煌818’,‘美丰’与‘兴隆188’之间观察到的差异位点的数目x=0个,判决它们之间构成品种权侵权。但败诉方认为西瓜分子鉴定标准[10]只检测了N=28个位点,质疑判决的可靠性。西瓜分子鉴定标准中,相同与不同品种的判定阈值n=3,根据公式(2),当x=7时,为相同品种的概率P=2.49×10-3≤α=0.05。因此,‘美丰’与‘欣美’在95%的概率保障下落入了绿区,为不同品种,不构成侵权的判决是可靠的。当x=0时,P=2.96≥1-α=0.95,因此,‘美丰’与‘辉煌818’,‘美丰’与‘兴隆188’在95%的概率保障下落入了红区,为相同或相似品种,构成侵权判决也是可靠的,败诉方质疑的理由并不充分。
3 讨论
3.1 假设t值服从均匀分布的理由
差异大的品种可以根据性状直接判定为不同品种,也就是说,多数情况下,利用分子标准鉴定的品种差异不大。因此,期望的差异位点的数目t值接近于品种鉴定标准中区分相同与不同品种的判定阈值n,且t值与n值之间的差值大小接近随机事件,导致t值的分布服从于以n为平均值的平缓的正态分布,即t~N(n, σ2)。当在授权审查或案件判决中,获得多对性状间差异不大的品种间的DNA分子标记差异数量的实测值后,就可以计算出σ2的值和公式(1)中的先验概率P(t)的值,最终精确计算出相同品种的后验概率P值并精确判定品种间的关系。当品种间DNA分子标记差异数量的实测值数据有限,导致不能或不能准确计算公式(1)中的先验概率P(t)的值时,可用t值的均匀分布近似估计正态分布,将公式(1)转化为公式(2),实现相同品种的后验概率P值的估算。由于t值的分布服从于以n为平均值的平缓的正态分布,因此,近似为均匀分布是合理的。根据相同品种概率P值的计算公式的原理,将正态分布近似为均匀分布,所产生的效应仅是略为增加判定品种间关系的黄区的范围,同时略为缩小红区与绿区的范围。也就是说,使用近似的均匀分布,不能明确获得品种间关系的机会略有增加,但获得的明确鉴定结论更加可靠,这符合品种授权与案件判决对品种鉴定结论的精准性的要求。
当品种间差异较大,即t值与n值之间的差值较大时,无论是采用均匀分布还是正态分布,为相同品种的后验概率P的值都很低,因此,均可正确地判定出它们为不同的品种。事实上,表1中差异大的品种间的关系判定全部得到了验证,表明均匀分布的假定基本不会影响差异大的品种间关系判定的准确率。
总之,假定t值服从均匀分布,实现了相同品种的后验概率P值计算的同时,对品种间关系判定结论的准确性也基本无影响。
3.2 现有品种分子鉴定标准中检测位点不足导致鉴定结论不明确
现有的大部分基于SSR标记的品种鉴定标准中规定的检测位点都较少,例如,水稻品种分子鉴定标准[8]规定检测位点数仅为N=48个。即使在品种间没有观察差异分子标记位点,即x=0,根据公式(2),它们为相同品种或相似品种的概率P=0.87,落入了黄区,无法在1-α=0.95的概率保障下,判定为相同或近似品种。事实上,表1显示每个品种组合中有0—5 705(0—57.05%)次抽样,不能在1-α=0.95的概率保障下得到品种组合间关系的明确结论,品种组合间关系落入了黄区,需要结合其他证据如田间测试结果进行判定。增加品种分子鉴定标准中检测位点的数目可解决品种间关系鉴定结论不明确的问题。假设将水稻品种分子鉴定标准[8]中检测位点数量和判定阈值同时扩大10倍(N=480且n=20),那么,判定相同与不同品种间的分子差异水平并没有改变。若在品种间依然没有观察到差异标记位点(x=0),那么根据公式(2),它们为相同或相似品种的概率P=1.00。也就是说,几乎有绝对的把握保证这品种间的分子差异在标准规定的判定阈值之下,可以明确地判定为相同或相似的品种。
总之,增加分子鉴定标准中检测位点的数量,可以更精准地评估品种间分子差异水平,增加具有明确判定结论的红区与绿区的范围,缩小不具有明确判定结论的黄区的范围。
3.3 分子标记鉴定在品种鉴定中的作用与地位
品种分子鉴定存在以下局限。首先,分子鉴定标准只抽检基因组上部分位点,存在抽样误差,不能准确说明品种间的分子差异水平。本研究为品种分子鉴定结论赋予了概率保证,减少了因检测位点不足导致的争议。第二,分子标记分型技术无法做到绝对准确,导致品种间分子差异的假阳性与假阴性。例如,SNP分型的技术误差超过1%[11,12],聚合酶滑动[13,14,15,16,17,18,19]也造成大量SSR标记分型错误[9]。最近发明的AmpSeq-SSR技术有效解决了SSR标记检测位点不足与分型错误的问题[9]。第三,碱基突变率约为10-9/世代[20],而多数作物基因组超过109个碱基,导致相同品种间也可能存在约2个标记的差异。因此,存在差异的分子标记不能直接作为不同品种的判定依据。品种鉴定是品种权授权与案件判决的依据,需同时满足科学与法律的严谨性,需要逻辑完整的解决方案。品种分子标记鉴定弥补了性状鉴定速度慢的不足,但《种子法》是基于性状定义品种的,决定了分子标记鉴定不具有最终的法律地位。品种间分子标记差异位点的多少反应了它们为相同或不同品种概率的大小,可以依据概率大小快速作出预授权或判决,以充分利用分子标记鉴定速度快的优势。然而,类似于刑事案件,分子标记鉴定结果的孤证不足以成为最终定案依据。当预授权或判决存在争议时,可根据分子鉴定结果确定举证责任方,举证责任方可以根据性状测试结果,论证请求的合理性。
4 结论
构建了一个评估品种间关系判定结论可靠性的概率模型,利用该概率模型鉴定的品种间关系的准确率为100%。为品种间关系的分子鉴定结论赋予了概率保证,提高品种间关系判定结论的准确性,避免因检测位点不足导致的争议。The authors have declared that no competing interests exist.