0 引言
【研究意义】SSR标记由于其多态性高、共显性等特点在DNA指纹库构建、品种鉴定及种质资源分析中具有独特的优势[1]。然而,由于SSR标记的等位基因数较多,与只有2个等位基因的SNP、INDEL等标记相比,在实际应用中存在数据采集效率较低、数据共享难度较大等问题[2-3],影响了SSR标记的应用效果。通过采用荧光毛细管电泳平台代替普通凝胶电泳平台,已初步实现了SSR标记在试验程序上的自动化和标准化[4]。如果能进一步通过开发SSR指纹分析工具,实现SSR标记在数据采集上的自动化和标准化,将对推动SSR标记在实践中更加广泛应用具有重要意义。【前人研究进展】目前,SSR指纹分析的常用商业化软件有GeneMapper®和GeneMarker®2个系列[5]。GeneMapper®是ABI公司委托第三方开发的与荧光毛细管电泳仪捆绑销售的DNA片段分析软件,分析对象以人类及马、牛、羊等动物为主[6],针对法庭科学和司法鉴定等应用需求,形成了人类DNA鉴定专用定制版本GeneMapper® ID,主要兼容使用AmpF?STR试剂盒[7-8]。GeneMarker®是SoftGenetics公司研发的能够处理主流的荧光毛细管电泳平台输出的DNA数据的商业化软件,面对人类个体鉴定等业务的巨大需求,专为法医学研究提供了人类身份认定STR分型检测软件GeneMarker® HID[9]。可免费获取的分析软件主要有ABI公司提供peak scanner[10],SoftGenetics公司提供的GeneMarker®试用版(http://www.softgenetics. com/GeneMarker.php),以及University of California Davis提供的STRend(http://www.vgl.ucdavis.edu/ informatics/strand.php)等。为解决人类DNA指纹鉴定中的混合样品分析问题,先后开发了MasterMIX[11]、PENDULUM[12]、MIX05[13]、LoComatioN[14]、TrueAllele[15]、Forensim[16]等开放软件以及GeneMapper ®ID- X[17]、GeneMarker®HID[18]等商业化软件。此外,为了商业化客户的需要,除了单机版的分析工具,还出现了一些将分析软件与实验室管理系统等相耦合的操作更加便捷的集成系统[19-20]。【本研究切入点】虽然已经开发了大量的SSR分型软件,特别是GeneMapper®和GeneMarker®系列商业化定制软件在人类DNA指纹库构建及亲子鉴定中得到成功应用,然而,这些软件直接应用到植物品种SSR指纹分析时效果还不太理想,主要原因如下:(1)人类DNA鉴定以单一来源样品的个体识别为主,不同个体的样品混合需作为特殊情况处理[21],植物品种DNA鉴定则以群体识别为主,利用同一品种内部大量不同个体混合形成的混合样品进行DNA指纹分析是主要的样品准备形式,需要将混合样品带来的问题作为普遍问题处理[22];(2)人类的DNA指纹研究比较成熟,SSR标记位点质量高,重复序列以4—5碱基为主,已形成商业化的各种试剂盒产品[23-24],而不同植物物种的DNA指纹研究基础参差不齐,只有少数植物开始参照人类对标记选择的标准开发筛选适合品种鉴定需要的SSR标记[25-26],多数植物入选的SSR标记仍以2碱基重复的标记类型为主,且试验条件标准化程度较低,容易出现连续多峰、N+1峰等特殊峰型,需要更加强大的峰识别算法;(3)人类是二倍体物种,生成的基因分型数据类型较为简单,易于后期的数据分析,而植物物种较多,倍性复杂[27],除了二倍体(如玉米、水稻),还有四倍体(如棉花、油菜)、六倍体(如小麦)等多种类型,增加了指纹采集的难度;(4)人类的DNA指纹库只需要采集数据入库,而植物品种由于其指纹图谱反映的信息量比较大,有同时采集数据和指纹图谱的需求。因此,开发一款适合植物品种SSR指纹分析的软件是非常必要的。【拟解决的关键问题】本研究针对植物品种SSR指纹的特殊性,在GeneMarker的基础上进一步定制适用于植物品种SSR指纹分析的专用软件-SSR Analyser,解决植物品种SSR指纹分析的自动化和标准化的问题,并以玉米等植物的SSR指纹分析为例,验证SSR Analyser的分析性能及应用价值。1 材料与方法
1.1 供试材料及数据获取
软件开发阶段所用供试材料为玉米品种,参考行业标准《玉米品种鉴定技术规程 SSR标记法》[28]进行DNA提取、PCR扩增、荧光毛细管电泳(DNA分析仪型号:ABI3730XL),通过Data Collection软件将DNA分析仪上获得信号转换为.fsa格式文件,这些原始文件将用于测试软件指纹分析效果。软件试用阶段所用供试材料扩大到水稻[29]、小麦[30]、棉花[31]、高粱[32]、黄瓜[33]、苏丹草[34]等作物品种,所用SSR引物主要从相应作物的行业标准中或试用单位自行筛选的引物名单中选取。1.2 软件开发整体方案
针对植物品种SSR指纹分析的特殊性,在Genemarker的基础上形成整体定制方案(图1),涉及3个方面:SSR指纹处理、Panel编辑、数据库对接。SSR指纹处理是整个软件开发的难点,分为3个环节:原始数据预处理、特异峰识别、有效峰采集。原始数据预处理的研究对象是电泳形成的原始数据,主要包括荧光基线校正、峰图坐标转换、峰的平滑、饱和峰校正、Pull-up峰消除等;特异峰识别的研究对象是原始数据预处理后形成的原始峰,包括单峰、N+1峰、连续多峰等的识别;有效峰采集的研究对象是已识别出的特异峰,包括邻峰过滤、高低峰过滤、二倍体过滤等。Panel编辑主要解决Panel设计、标记参数设置、Panel调用等问题。为了实现植物品种指纹库构建及鉴定的全程自动化,将单机版软件进一步与指纹库管理系统进行无缝对接,实现软件直接调用、数据和指纹自动上传、指纹库统一管理和分析等功能。显示原图|下载原图ZIP|生成PPT
图1软件开发方案
-->Fig. 1Schema of the software
-->
1.3 SSR指纹处理功能开发
1.3.1 原始数据预处理 原软件对荧光基线校正、峰图坐标转换、饱和峰校正等问题已经解决,因此该环节主要问题是对Pull-up峰的识别和消除效果有待改善。Pull-up峰的解决方案有2种:第一种是定义不同荧光之间的作用关系矩阵,按其比例关系对某一颜色的荧光进行整体消除,该方案有2个缺陷,一是不精准,容易产生过度消除或者消除不足;二是荧光之间的作用关系在不同电泳板间是变化的,按固定的比例关系进行消除会出现与实际不符的情况。第二种是结合峰高比例、峰型特征、峰位置等信息,对Pull-up峰进行定位及消除,该方案也有2个缺陷,一是峰高比例偏高时容易过度消除;二是峰型跨度大于分析单元时容易误消。原软件的算法采用了第一种方案,即采用用户自定义的矩阵或系统自动计算的矩阵进行Pull-up峰消除,新软件的算法综合了上述2种方案,即先用系统计算的矩阵进行弱消除,避免过度消除的问题,如果有消除不彻底的情况,再用自定义矩阵进行单峰消除,从而兼顾了自动化和灵活性。1.3.2 特异峰识别 原始数据经过预处理后,以峰图的形式呈现,需要从中识别出特异峰。特异峰的基本类型有单峰、N+1峰、连续多峰3种。N+1峰、连续多峰是识别的难点,原软件对这两种峰的识别存在位置读不准、峰值估不准、多识别或少识别峰的问题。
N+1峰是 PCR过程中普通Taq酶在非模板扩增片段3'端自动加一个腺苷酸引起的,表现为在同一等位基因位置出现相差1 bp的2个峰[35]。原软件对N+1峰按照读取最高峰的方式进行识别,由于N+1峰按照最高峰出现的位置分为总是左高或总是右高型、时左时右型和接近等高型3种类型,对后2种类型在位置读取时容易造成1 bp的偏差。为此,新软件提供了3种读取方式,即读最高峰、读左峰、读右峰。用户根据标记的N+1峰类型自行设定不同读取方式:对总是左高或总是右高型,设定读最高峰;对接近等高型,固定读左峰或读右峰;对有时左高有时右高型,根据最常出现的情况初始设定读左峰或读右峰,随后针对特定电泳板的实际情况可进行临时调整。无论位置读的是哪个峰,峰值均采集最高峰的。
连续多峰是PCR扩增过程中Taq酶在模板链上滑动引起的,表现为扩增产物长度连续梯度递减的一组峰[36],原软件对连续多峰采取读最高峰的方式进行识别,识别能力较弱,体现在几个方面:(1)连续多峰由于其峰型的特殊性,将一个正常特异峰的高度分散到相差2 bp的多个小峰上,使得单个峰的高度很低,如果采用最高峰的峰值,则该连续多峰容易被随后的高低峰过滤和二倍体过滤算法过滤掉;(2)连续多峰最高峰的位置因样品不同或试验不同而出现变化,造成至少2 bp的读取偏差。新软件形成改进的连续多峰识别算法:将引物扩增区间范围内有3个及以上间隔约2 bp、递增的子峰当成一个整体识别为连续多峰;如果连续多峰由峰高递增的子峰构成,则将其最高峰识别为终点峰,如果连续多峰由峰高接近的子峰构成,以峰高大于最高子峰峰高的特定阈值(默认值是87%)的最右边子峰为其终点峰;将终点峰的位置作为为该连续多峰的读取位置;将连续多峰的所有子峰峰高的累加值作为该连续多峰的峰值并标注在终点峰上,后续的高低峰过滤、二倍体过滤环节均采用此峰值作为过滤依据。
1.3.3 有效峰采集 特异峰识别环节完成后,往往还会有邻峰、高低峰、三峰或多峰的情况,需进一步筛选出可采集入库的有效峰,这就需要一系列过滤掉无效峰的算法,主要包括邻峰过滤、高低峰过滤和二倍体过滤算法。
原软件的过滤算法主要是针对个体样品的指纹采集设计的,在应用到植物品种混合样品的指纹采集时效果不太理想,主要原因在于:个体样品上出现的高低峰主要是PCR扩增时因引物不对称扩增造成的;出现3个或多个峰主要是特异峰识别错误造成的,因此过滤算法主要保证数据采集的准确性。而植物品种混合样品上出现的高低峰、三峰或多个峰,则是样品一致性差和引物不对称扩增两种因素综合作用的结果,过滤算法主要保证数据采集的一致性。为此,新软件对原有过滤算法改进后形成新算法如下:首先执行邻峰过滤,将特异峰中相差2 bp且峰高低于邻峰阈值的低峰过滤掉;然后执行高低峰过滤,将峰高低于高低峰阈值的低峰过滤掉;如果剩下的峰仍有2个以上,进一步执行二倍体过滤算法,将低于二倍体阈值的继续过滤掉,最终剩下1—3个峰。如果是3个峰,对峰高前两位的采集入库,对第三个峰在指纹图谱上标识,但数据不入库,如果是1—2个峰,则直接采集入库。
1.4 Panel编辑
Panel编辑主要包括新Panel设计、标记参数设置、Panel调用3个方面内容。原软件在Panel编辑上存在灵活性、方便性和统一性的欠缺问题:新Panel生成时需要先从标记设计开始,不能利用已有Panel中的标记进行重组;标记参数设置完成后不能根据具体试验情况进行调整修改;Panel的调用比较随意,不同实验员在自己的电脑上分析时,可随时修改Panel,造成不同批次分析的数据不具有可比性。新软件为提高Panel设计的方便性,增加了针对已有Panel中的标记重组设计的功能,用户进行Panel设计时只需遵守标记组合的基本原则(即相同荧光的不同引物范围没有交叉区,不同荧光的引物重叠区最小),就可对已有的标记进行重新组合形成新的Panel。
新软件为提高标记参数设置的灵活性,不再对所有参数固定化统一设定,而是区分了不同参数的作用范围,分为3种情况:(1)针对特定物种或Panel统一设定的参数,包括读取长度范围、读取峰高范围、高低峰过滤、二倍体过滤;(2)针对每个引物位点单独设定的参数,包括连续多峰过滤、N+1峰过滤、邻峰过滤、Intensity过滤;(3)针对每块电泳板进行微调的参数,包括N+1 峰过滤、Intensity过滤。
新软件为保证不同实验室、不同实验员在同一时期使用完全相同的一套Panel,实现建库标准化和数据共享,采取了三节点的Panel调用方案,将Panel从原来的一种状态或类型区分为3种,即用户自定义的、分析时正在启用的、系统默认的:(1)用户自定义Panel与原软件的状态相同,由实验员自行设计、自己使用,可新建、修改或删除,包括从已设定的Panel中选择引物自由组合成新的Panel。(2)新软件新增了2个状态,一个是系统默认Panel,由管理员设计并提供给整个系统同步使用,实验员只能使用,但不能做任何修改和调整,以保证实验员能够采用相同的Panel进行分析,并保证Panel的实时更新;一个是正在启用Panel,实验员可修改其部分参数,但不能自动保存,可进行标记范围的左右整体移动,但不可修改等位基因命名及范围,以兼容不同电泳试验的系统误差。
1.5 与数据库管理系统无缝对接
在软件的功能开发及调试完毕后,将其与北京市农林科学院玉米研究中心开发的植物品种DNA指纹库管理系统(以下简称指纹库系统,软件登记号:2015SR085905)进行无缝对接,主要内容包括:(1)软件直接调用,将软件与指纹库系统链接,在数据库界面下可直接打开软件进行SSR指纹分析,原始文件、Panel文件则在指纹库系统中管理和调用。(2)数据和指纹图谱自动上传,软件分析后形成的数据和指纹,直接点击上传,指纹库系统将无效数据和指纹过滤后,对符合条件的自动入库,供下一步分析使用。2 结果
2.1 软件总体情况
软件基于 Borland公司的Borland C++ Builder 6、在GeneMarker基础定制开发而成,可在Windows(XP及以上)操作系统上运行。计算机硬件环境的基本性能要求为:Pentium®III、1 GHz以上的CPU处理器;512 MB以上的内存;20GB以上的可用硬盘空间。该软件具有界面友好、操作简单、功能强大等优点(图2),已经以SSR指纹分析器(英文名:SSR Analyser)的名称申请并获得了计算机软件著作权(登记号:2015SR161217)。SSR Analyser软件可以从官方网站或QQ群上获取,QQ群名为ssr-analyser,群号为683096128;网站链接为http://ssr-analyser.maizedna.org/或http://ssr-analyser.soft. today,在线文档可以帮助潜在用户学习软件各项功能,安装指南及快速上手指南可以帮助用户安装及使用软件,如果仍有问题,可通过邮箱与作者直接联系。显示原图|下载原图ZIP|生成PPT
图2SSR Analyser软件分析界面
-->Fig. 2The user interface of the SSR analyser
-->
2.2 SSR指纹处理效果
SSR Analyser软件实现了对Pull-up峰准确自动消除;解决了N+1峰、连续多峰等特殊峰型不识别、读不准、误读等问题;通过改进邻峰过滤、高低峰过滤和二倍体过滤算法,解决了植物品种混合样品的有效峰采集问题。图3以玉米SSR引物为例展示了新软件在Pullup峰消除(图3-A)、N+1峰识别(图3-B)、连续多峰识别(图3-C)、邻峰过滤(图3-D)、高低峰过滤(图3-E)、二倍体过滤(图3-F)等方面的效果,表明SSR Analyser对植物品种的SSR指纹分析效果有明显改善,满足了基于混合样品的、以2 bp重复类型SSR标记为主的植物品种SSR指纹分析的需求。显示原图|下载原图ZIP|生成PPT
图3SSR指纹处理功能的实现效果
-->Fig. 3The effect of SSR fingerprint processing function
-->
2.3 Panel编辑功能改进
SSR Analyser软件较好的兼顾了Panel编辑的灵活性、方便性和统一性,在保证数据采集标准化的前提下,更加适应复杂的试验情况:(1)实现了从已有Panel中快速重新组合形成新Panel的功能,保证了即使没有使用相同的Panel,只要使用了相同的标记就能形成标准化的指纹数据(图4-A);(2)提高了标记参数设置的灵活性,根据不同参数作用范围,标记参数设置既有针对特定物种、Panel一次性固定设置的参数,也有针对每个引物位点、每块电泳板单独设定或微调的参数(图4-B);(3)保证了Panel的统一调用和同步更新,通过三节点的Panel调用方案,将系统统一管理的Panel和实验员自己管理的Panel分开,和正在运行的可进行参数微调的Panel分开,兼顾了Panel的稳定性和试验的灵活性(图4-C)。显示原图|下载原图ZIP|生成PPT
图4Panel编辑功能的实现效果
-->Fig. 4The implementation of the panel editing function
-->
2.4 与指纹库系统对接
SSR Analyser软件与指纹库系统的无缝对接,实现了样品准备到指纹采集全流程的自动化、标准化,形成的指纹库具有直观可追溯的优势(图5)。显示原图|下载原图ZIP|生成PPT
图5与指纹库系统对接效果
-->Fig. 5Implementation effect of docking with the fingerprint database system
-->
2.5 软件实际应用案例
SSR Analyser软件开发后,率先在玉米品种SSR指纹库构建中得到大规模应用[37]。建库SSR引物40个,采用十重电泳,一块电泳板形成的FSA原始文件中包括96个样品、96×10=960个数据点,按10个引物一组设计形成4组系统默认Panel(Q1、Q2、Q3和Q4),由两位实验员进行两组独立平行试验并独立进行指纹分析。不考虑数据缺失进行的补板,共形成FSA文件数为42×4×2=336个。首先通过比较两位实验员独立分析的平行试验数据来评估软件分析结果的准确性,两组指纹数据的的吻合度达到99.9%。其次评估软件分析效率,如果用GeneMapper分析一个FSA文件,需要人工订正的数据占10%—20%,平均分析时间为30—40 min,用SSR Analyser分析同样的文件,人工订正的数据量减少为0.5%—1%,平均分析时间缩短为约3 min,两位实验员完成全部336个FSA文件的分析最快需要84 h/人。由此可见,SSR Analyser软件不仅分析准确性高,分析效率也提高了10倍。为全面系统评价SSR Analyser对不同物种的分析效果,进一步联合多家研究单位在水稻、高粱、黄瓜、番茄、苏丹草等多种二倍体植物的指纹库构建中试用,表明在二倍体作物上的应用是成功的;在小麦、棉花等多倍体植物的指纹库构建中试用,表明对其中二倍体化的标记使用效果较好,对非二倍体化的标记仍需进一步完善过滤算法。
3 讨论
3.1 SSR Analyser软件的应用价值
随着品种审定登记、品种权保护等系列制度的实施,植物品种SSR指纹库构建及品种鉴定已经进入日程。本研究开发的SSR Analyser软件解决了植物品种SSR分析自动化和标准化的问题,与已有的软件相比,更加符合植物品种SSR指纹分析的需求:(1)数据分析更加简单高效,从导入数据、设置参数、分析数据、上传数据,只需连续的四步就可完成,比原软件分析效率提高了10倍以上。(2)对2 bp重复类型SSR标记为主的植物品种指纹采集更加精准,提供了N+1峰、连续多峰等特殊峰型读取的完美解决方案。(3)更加适合基于混合样品的植物品种SSR指纹采集,对混合样品带来的高低峰、三峰、多峰等的指纹采集进行了针对性开发,解决了混合样品的指纹准确读取的问题。(4)与DNA指纹库管理系统自动对接,批量上传数据和指纹图谱。3.2 软件的物种兼容性
与GeneMapper ID、GeneMarker HID等定制化商业软件仅解决人类一个物种的指纹自动化分析不同,SSR Analyser需要解决大部分植物物种的指纹自动化分析。从SSR Analyser在多个作物上试用的情况看,在二倍体作物上分析效果最好,下一步可在更多的二倍体作物上推广使用。在多倍体作物上的使用效果则受不同SSR标记特征的影响,如果选用的SSR标记类型是二倍体化的,则分析效果较好;如果是多倍体化的,但不同染色体亚组的等位基因落在不同的区间范围内,通过拆解成2个或3个二倍体化的标记,也可获得较好的分析效果。如果无法进行拆解,则面临采集的数据信息不完全的问题。从SSR Analyser软件本身而言,下一步可完善二倍体过滤算法,形成可兼容二倍体、四倍体、六倍体等多种倍性植物的过滤算法;然而,从指纹库构建而言,多倍体过滤算法不仅改变了SSR Analyser的数据采集,还影响到数据库结构设计及品种比较算法的逻辑,因此当开展多倍体植物品种SSR指纹库构建工作时,到底是采取开发二倍体化的SSR标记的方案,还是采取开发多倍体过滤算法的方案,仍需更多的实践检验。3.3 混合样品的解决方案
人类DNA指纹鉴定多数情况下采集的是个体样品的DNA指纹,个别情况下采集的混合样品主要来自犯罪现场的未知样品,混合样品中混合的不同个体数一般只有2个,即一个未知DNA指纹的个体(嫌疑人)和一个已知DNA指纹的个体(受害者)[11-21],即使如此,对混合样品的指纹解析仍很难达成一致结果[38]。与人类不同,植物品种DNA指纹鉴定可以采集由大量个体混合形成的混合样品,也可以先分别采集多个个体样品,然后统计其主要基因型作为该品种的标准指纹,而混合样品在品种预期一致性较高的情况下是首选方案[22]。与人类上主要处理个体样品或混合2个个体的混合样品的情况不同,SSR Analyser主要处理植物品种混合大量个体的混合DNA,需采取不同的指纹采集算法。在开发策略选择上,采取数据采集和指纹图谱采集相结合的方式,数据采集时通过高低峰过滤和二倍体过滤算法,仅保留峰高排在前面的1—2个峰,对第3个峰在指纹图谱上标注,在上传数据库时,将数据及对应的指纹图谱一并上传,在指纹库管理系统中建立数据和指纹图谱之间的链接,以便于通过指纹图谱获得更详细的信息。从已构建的玉米等作物品种SSR指纹库使用情况看,同时采集数据和指纹大大提升了指纹库的应用价值,在品种真实性鉴定中发挥了重要的作用[37-39]。4 结论
基于GeneMarker开发了适用于植物品种SSR指纹分析的定制化专用软件-SSR Analyser,解决了植物品种SSR指纹分析的自动化和标准化的问题。与已有软件相比,数据分析程序更加简单高效,对特殊峰型的SSR标记指纹采集更加精准,更加适合基于混合样品的植物品种SSR指纹采集。软件的开发及在多种作物上的成功应用大大改善了SSR标记在植物品种鉴定中的应用效果。The authors have declared that no competing interests exist.