Development and application of SSR loci in monoploid reference genome of sugarcane cultivar
WANG Heng-Bo, QI Shu-Ting, CHEN Shu-Qi, GUO Jin-Long, QUE You-Xiong,*Key Laboratory of Sugarcane Biology and Genetic Breeding (Fujian), Ministry of Agriculture, Fujian Agriculture and Forestry University / Sugarcane Research & Development Center, China Agricultural Technology System, Fuzhou 350002, Fujian, China通讯作者:
收稿日期:2019-09-11接受日期:2019-12-26网络出版日期:2020-01-15
基金资助: |
Received:2019-09-11Accepted:2019-12-26Online:2020-01-15
Fund supported: |
作者简介 About authors
E-mail:wanghengbo_0354@126.com,Tel:0591-83789177。
摘要
关键词:
Abstract
Keywords:
PDF (1819KB)元数据多维度评价相关文章导出EndNote|Ris|Bibtex收藏本文
本文引用格式
王恒波, 祁舒婷, 陈姝琦, 郭晋隆, 阙友雄. 甘蔗栽培种单倍体基因组SSR位点的发掘与应用[J]. 作物学报, 2020, 46(4): 631-642. doi:10.3724/SP.J.1006.2020.94135
WANG Heng-Bo, QI Shu-Ting, CHEN Shu-Qi, GUO Jin-Long, QUE You-Xiong.
甘蔗(Sacchrum spp. hybrid)是人类最早利用的C4植物, 是世界上最重要的糖料作物, 其食糖占世界总产的80%, 同时也是一种重要生物能源作物, 其生物乙醇产量占世界总产的40%[1]。甘蔗是一种具有适应性强、生物量高、光合效率高、可连续多年种植及CO2补偿点低的糖料作物。同时, 甘蔗是世界上生物量最大的作物之一, 2017年甘蔗产量已经超过玉米, 位居世界第三[2]。
1887年, 在爪哇和西印度巴巴多斯试验场发现甘蔗种子可以产生幼苗, 开启了甘蔗有性杂交的历史[3]。现代甘蔗栽培种是由甘蔗祖先热带种(S. officinarum L., 2n = 80, x = 10)和割手密种(S. spontaneum L., 2n = 40~128, x = 8)杂交产生的真正意义上的甘蔗杂种, 为了恢复高含糖量性状, 将杂种后代与热带种回交1次, 母本性状通过2n染色体传递给后代, 由于种间杂交和非孟德尔的遗传方式(2n+n), 造成杂种后代具有高度杂合、多倍体和非整倍体性, 染色体数目在2n = 100~130之间[4]。鉴于甘蔗栽培种的多倍及非整倍体的遗传背景, 其复杂性超过了大多数作物, 使相关的遗传研究、育种及基因组测序都面临极大的困难[5,6]。
简单重复序列(simple sequence repeats, SSR)具有高度的多态性、广泛分布于真核生物的基因组[5,6], 且分布随机[7], 但更偏向于低重复、富含基因的区域[8]。SSR位点产生于DNA复制和修复时, DNA聚合酶滑动或不均等重组[9], 因而可以根据在种内或种间产生大量的长度变异[10], 开发和筛选出多态性高、重复性好的SSR分子标记, 进而广泛应用于各种动、植物的品种指纹图谱鉴定[11]、遗传多样性分析[12,13,14]、遗传图谱构建[15,16,17]及重要性状(基因)的遗传定位或解析[18]等领域。然而, 相对于其他禾本科植物等模式作物, 甘蔗SSR分子标记开发及遗传连锁图谱的构建都比较落后, 相关的国内外报道较少。Singh等[13]从4085个EST序列中鉴定出351个EST-SSRs, 验证后发现134个有多态性。Shamshad等[19]从NCBI数据库中获得10,000个EST序列, 鉴定出406个SSRs, 验证了63个后发现42个具有多态性。Oliveira等[14]从甘蔗EST数据库中鉴定出2005个SSRs, 验证了342个, 其中224个(65.5%)呈多态性。甘蔗为同源多倍体作物, 染色体数目多(100~130), 遗传背景复杂, 基因组庞大(约10 Gb)[20], 大规模开发甘蔗基因组SSR标记面临很大的困难, 严重制约了甘蔗分子遗传研究相关工作的进展[16]。迄今, 与其他禾本科植物(如高粱Sorghum bicolor、小麦Triticum aestivum、大麦Hordeum vulgare、水稻Oyrza sativa、藜麦Chenopodium quinoa、玉米Zea mays、二穗短柄草Brachypodium distachyon)相比, 甘蔗已开发的SSR标记数量少、多态性低, 难以满足甘蔗分子标记辅助育种和遗传作图等工作的要求。
甘蔗和高粱同源染色体片段(BAC)的比较分析表明, 二者存在较高的基因共线性和序列保守性, 且甘蔗单倍体基因组大小约为800~900 Mb, 接近高粱基因组大小(750 Mb) [20]。普遍认为, 一个单倍型序列可为其他单倍型同源染色体提供较好的参考。目前, 甘蔗栽培种R570具有一个103,296个克隆的BAC文库, 它代表14×单倍体基因组覆盖率和1.3×R570全基因组覆盖度[21], 已被广泛应用于比较基因组分析[22,23,24]。Garsmeur等[25]用全基因组分析(WGP)技术将甘蔗栽培种R570的BAC与高粱基因组比对, 确定了一个由4660个甘蔗BAC文库片段组成的覆盖甘蔗单倍体基因组常染色质的BAC的最小标记路径(MTP), 并完成了甘蔗栽培种R570的单倍体基因组测定。目前, 甘蔗栽培种全基因组SSR鉴定尚未报道。本研究旨在分析和验证甘蔗栽培种R570单倍体基因组数据, 利用生物信息学方法发掘SSR位点的特征及其分布规律, 并设计和合成SSR引物, 验证其多态性, 为甘蔗栽培种的分子指纹图谱构建、品种间遗传多样性分析、重要农艺性状的遗传机制研究及分子育种的推进奠定一定的基础。
1 材料与方法
1.1 材料
甘蔗属包括1个割手密种、1个热带种及世界各国培育的甘蔗栽培种, 都来自于广州甘蔗糖业研究所海南甘蔗育种场(表1)。Table 1
表1
表1甘蔗品种资源名称和来源
Table 1
序号 No. | 名称 Name | 育成品种数 Number of released varieties | 类型 Type | 来源 Origin |
---|---|---|---|---|
1 | CP49-50 | 38 | Saccharun hybrid | 美国USA |
2 | Co 419 | 25 | Saccharun hybrid | 印度India |
3 | CP72-1210 | 17 | Saccharun hybrid | 美国USA |
4 | NCo 310 | 13 | Saccharun hybrid | 印度India |
5 | F108 | 12 | Saccharun hybrid | 中国台湾Taiwan, China |
6 | 华南56-12 Huanan 56-12 | 10 | Saccharun hybrid | 中国China |
7 | 崖城71-374 Yacheng 71-374 | 9 | Saccharun hybrid | 中国China |
8 | 粤农73-204 Yuenong 73-204 | 9 | Saccharun hybrid | 中国China |
9 | CP28-11 | 8 | Saccharun hybrid | 美国USA |
10 | Co 1001 | 6 | Saccharun hybrid | 印度India |
11 | 桂糖11号 Guitang 11 | 6 | Saccharun hybrid | 中国China |
12 | 云蔗65-225 Yunzhe 65-225 | 6 | Saccharun hybrid | 中国China |
13 | 川73-219 Chuan 73-219 | - | Saccharun hybrid | 中国China |
14 | ROC 1 | 6 | Saccharun hybrid | 中国台湾Taiwan, China |
15 | 科5 Ke 5 | 4 | Saccharun hybrid | 菲律宾Philippines |
16 | CP67-412 | 3 | Saccharun hybrid | 美国USA |
17 | POJ2878 | 3 | Saccharun hybrid | 印度尼西亚爪哇岛Java, Indonesia |
18 | 华南56-21 Huanan 56-21 | 3 | Saccharun hybrid | 中国China |
19 | R570 | - | Saccharun hybrid | 法国France |
20 | LA purple | - | Saccharun officinarum | 美国USA |
21 | SES208 | - | Saccharun spontaneum | 美国USA |
22 | LCP85-384 | Saccharun hybrid | 美国USA | |
23 | ROC16 | - | Saccharun hybrid | 中国台湾Taiwan, China |
24 | ROC22 | - | Saccharun hybrid | 中国台湾Taiwan, China |
新窗口打开|下载CSV
1.2 基因组序列的来源
通过EMBL-欧洲生物信息学研究所的公共数据库获得甘蔗栽培种R570基因组数据(登录号为ERZ654945), 或者也可以从法国农业研究所甘蔗基因组中心(http:// sugarcane-genome.cirad.fr/)直接获得。其他4种禾本科植物SSR位点序列特征来自郑燕等[26]分析结果。1.3 SSR位点的查找与SSR引物的开发
应用MISA (Microsatellite identification tool)软件扫描甘蔗栽培种R570的基因组BAC序列[27], 该软件下载自http://pgrc.ipk-gatersleben.de/misa/, 在配置文件中设置核苷酸重复基序(motif)分别为单(mononucleotide repeats MDRs)、二(dinucleotide repeats DNRs)、三(trinucleotide repeats TNRs)、四(tetranucleotide repeats TtNRs)、五(pentanucleotide repeats PNRs)、六(hexanucleotide repeats HNRs), 序列长度分别为10、12、15、16、15、18。对SSR位点两侧各截取200 bp序列设计引物, 借助MISA软件提供的与Primer3的接口工具, 把MISA识别出来的SSR序列转为Primer3需要的格式。用Primer3 (http://frodo.wi.mit.edu/primer3/)在线设计引物, 引物设计参数为primer length: 18~28 bp; annealing temperature: 55~65℃; amplicon size: 100~500 bp; GC content: 45%~65%[13]。1.4 PCR扩增和电泳分析
PCR 体系为25 μL, 包含DNA (25 ng μL-1) 2.0 μL、正反向引物(10 μmol μL-1)各0.5 μL、2×Taq Plus Master Mix (Dye) 12.5 μL (试剂购自北京康为世纪生物科技有限公司)、9.5 μL ddH2O。鉴于引物较多, 统一使用降落PCR程序, 在T100 Thermal Cycler (Bio-Rad Research, USA)扩增仪上进行。扩增程序为94℃预变性5 min; 94℃变性30 s, 65℃退火30 s, 72℃延伸30 s, 共10个循环, 每个循环退火温度降低0.7℃; 94℃变性30 s, 55℃退火30 s, 72℃延伸30 s, 共25个循环; 最后72℃延伸7 min, 4℃保存。PCR产物经6%非变性聚丙烯酰胺凝胶电泳分离, 140 V恒压下电泳3.0 h, 染色、照相及保存, 其中染色采用电泳后泡染法, 用水和0.1 mol L-1 NaCl稀释GelStain 10,000X储备试剂3300倍, 即标准染色液。GelStain染料购自北京全式金生物技术有限公司(货号: GS101-01)。1.5 数据统计分析
SSR频率是指基因组中出现一个SSR位点的距离, 即每若干kb出现一个SSR位点; SSR丰度是指基因组中所有SSR位点的数量之和; SSR相对丰度是指每百万个碱基中所含的SSR位点数量。按电泳扩增结果, 选择清晰的扩增条带人工读带, 在相同水平迁移位置上, 有条带的记为“1”, 没有条带的记为“0”, 缺失数据记为“-”, 根据统计的结果建立0~1矩阵。利用NTSYS-pc 2.1软件中的子程序SIMQUAL计算样品间的相似性系数(SM), 然后用子程序SAHN中的非加权平均法UPGMA (unweighted pair-group method with arithmetic means)进行聚类分析, 最后利用Tree plot绘制树状聚类图。参考Smith [28]的方法计算引物的多态性信息量(polymorphism information content, PIC)。PIC=1-∑Pij2, 其中Pij为某标记i扩增的第j个等位基因出现的频率, PIC的范围为0~1, 当PIC≥0.5时为高多态性引物; 0.25<PIC<0.5时为中度多态性引物; PIC≤0.25时为低多态性引物。2 结果与分析
2.1 甘蔗栽培种SSR位点的数量、类型及分布频率
利用MISA软件扫描甘蔗栽培种R570的4660个BAC文库序列(总长为382 Mb), 通过分析1~6核苷酸重复基序, 设定SSR位点的长度不低于10 bp, 共找到27,241个SSR位点(表1), 平均每1.08个基因或14.01 kb含有1个SSR位点。其中单核苷酸重复基序类型出现的频率最高, 为11,079个位点, 占总数的40.67%; 三核苷酸重复基序类型次之, 为6447个位点, 占总数的23.67%, 两者合计占总数的63.33%。而二、四、五、六核苷酸类型及复合型所占的比例相对较低, 分别为11.97%、4.92%、9.32%和9.45%, 合计占总数的36.67%。对于不同SSR核苷酸重复基序类型而言, 重复次数越少, 出现的频率越高。在1~6核苷酸重复基序类型中, 优势重复基序类型数量占比最多的重复次数都接近其筛选标准, 平均重复次数分别是11.68、11.23、6.10、4.78、3.38、3.30。在单核苷酸重复基序类型数量中, 优势重复次数最多的是10次重复, 有6297个, 占总位点数23.12%, 与三核苷酸重复基序总数基本相当, 但比二、四、五、六核苷酸重复基序的总数还多。在三核苷酸重复基序类型中, 优势重复次数最多的是5次重复, 有3718个, 占总位点数13.65%, 除了单核苷酸重复类型外, 也都超过了其他4种类型重复基序类型的总数。二、四、五、六核苷酸重复基序类型优势重复次数相对较少, 其中四核苷酸重复基序的总数最少, 其优势重复次数为4次重复, 仅有941个, 占总位点数3.45%。总体而言, 重复次数在3~10之间的总SSR位点数为21,270个, 占总位点数的78.08%。在1~6核苷酸重复基序类型中, 优势重复次数占比分别从56.83%、37.09%、57.67%、70.17%、80.54%和81.74%, 除了二核苷酸重复基序较低外, 其他基序类型呈现出逐步递升趋势。此外, 在设计SSR引物成功率上, 随着核苷酸重复基序类型的增多和优势重复次数的降低, 设计到符合标准的SSR引物的成功率在逐渐下降。
Table 2
表2
表2甘蔗栽培种R570基因组上各类核苷酸重复基序分布特征信息
Table 2
重复次数 Repeat number | 核苷酸重复基序 Nucleotide repeat motif | 合计 Total | |||||
---|---|---|---|---|---|---|---|
Mono- | Di- | Tri- | Tetra- | Penta- | Hexa- | ||
3 | 2044 | 2104 | 4148 | ||||
4 | 941 | 313 | 355 | 1609 | |||
5 | 3718 | 225 | 112 | 72 | 4127 | ||
6 | 1210 | 1342 | 78 | 26 | 18 | 2674 | |
7 | 527 | 636 | 29 | 9 | 6 | 1207 | |
8 | 305 | 281 | 10 | 7 | 5 | 608 | |
9 | 199 | 168 | 9 | 4 | 3 | 383 | |
10 | 6297 | 128 | 77 | 8 | 4 | 0 | 6514 |
11 | 1997 | 84 | 71 | 5 | 2 | 4 | 2163 |
12 | 891 | 57 | 38 | 8 | 3 | 2 | 999 |
13 | 496 | 45 | 17 | 6 | 3 | 2 | 569 |
14 | 262 | 49 | 11 | 2 | 3 | 0 | 327 |
15 | 182 | 39 | 17 | 2 | 0 | 0 | 240 |
>15 | 954 | 619 | 71 | 18 | 8 | 3 | 1673 |
合计Total | 11079 | 3262 | 6447 | 1341 | 2538 | 2574 | 27241 |
优势重复次数 Dominant repeat number (%) | 56.84 | 37.09 | 57.67 | 70.17 | 80.54 | 81.74 | 78.08 |
比例 Proportion (%) | 40.67 | 11.97 | 23.67 | 4.92 | 9.32 | 9.45 | 100 |
平均重复次数 Mean repeat number | 11.68 | 11.23 | 6.1 | 4.78 | 3.38 | 3.3 | |
设计引物的位点数 Number of loci primer designed | 11079 | 3262 | 6447 | 1122 | 1995 | 1815 | |
比例 Proportion (%) | 100 | 100 | 100 | 83.67 | 78.61 | 70.51 |
新窗口打开|下载CSV
2.2 甘蔗与其他4种禾本科植物SSR位点的数量和频率特征比较
选取了4种具有代表性的禾本科植物(高粱、玉米、水稻、二穗短柄草)和甘蔗比较, 它们的基因组变化范围在272 Mb (二穗短柄草)和2061 Mb (玉米)之间(表3)。SSR数量与基因组大小存在极显著的正相关(r = 0.92; P < 0.01), 但SSR的相对丰度和频率与基因组大小没有相关性。在1~6核苷酸重复基序中, 水稻SSR位点相对丰度都是最高的, 其次是二穗短柄草(除二和六核苷酸重复基序外), 而甘蔗的SSR相对丰度基本都是最低的(除单核苷酸重复基序外)。总的相对丰度从高到低分别为水稻(566.45)、二穗短柄草(361.15)、高粱(350.00)、玉米(152.54)、甘蔗(71.33), SSR位点分布在禾本科植物中存在丰富的多样性。同时, SSR出现的频率也与SSR数量成正比, 频率从高到低呈现相同的变化趋势。Table 3
表3
表35种禾本科植物中1~6核苷酸重复基序类型的SSR数量和相对丰度
Table 3
物种 Species | 项目 Item | 甘蔗 S. spp. | 高粱 S. bicolor | 玉米 Z. mays | 水稻 O. sativa | 二穗短柄草 B. distachyon |
---|---|---|---|---|---|---|
单核苷酸 | 数量 Number | 11079.00 | 14294.00 | 30700.00 | 15311.00 | 7991.00 |
Mono-nucleotide | 相对丰度 Relative abundance | 29.00 | 19.34 | 14.90 | 41.16 | 29.38 |
二核苷酸 | 数量 Number | 3262.00 | 38090.00 | 64663.00 | 35315.00 | 9175.00 |
Di-nucleotide | 相对丰度 Relative abundance | 8.54 | 51.54 | 31.37 | 94.93 | 33.73 |
三核苷酸 | 数量 Number | 6447.00 | 80299.00 | 185973.00 | 77566.00 | 37005.00 |
Tri-nucleotide | 相对丰度 Relative abundance | 16.88 | 108.66 | 90.23 | 208.51 | 136.05 |
四核苷酸 | 数量 Number | 1341.00 | 47062.00 | 58806.00 | 26411.00 | 17428.00 |
Tetra-nucleotide | 相对丰度 Relative abundance | 3.51 | 63.68 | 28.53 | 71.00 | 64.07 |
五核苷酸 | 数量 Number | 2538.00 | 16630.00 | 38408.00 | 17080.00 | 7972.00 |
Penta-nucleotide | 相对丰度 Relative abundance | 6.64 | 22.50 | 18.64 | 45.91 | 29.31 |
六核苷酸 | 数量 Number | 2574.00 | 62227.00 | 119813.00 | 38940.00 | 18629.00 |
Hexa-nucleotide | 相对丰度 Relative abundance | 6.74 | 84.20 | 58.13 | 104.68 | 68.49 |
SSR 数量(丰度) SSR number (abundance) | 27241.00 | 258602.00 | 498363.00 | 210623.00 | 98200.00 | |
基因组大小 Genome size (Mb) | 382.00 | 739.00 | 2061.00 | 372.00 | 272.00 | |
总的相对丰度 Relative abundance | 71.33 | 350.00 | 152.54 | 566.45 | 361.15 | |
SSR频率SSR frequency (1 kb-1) | 14.02 | 2.86 | 6.56 | 1.77 | 2.77 |
新窗口打开|下载CSV
5种禾本科植物的6种不同核苷酸重复基序的SSR的相对数量(丰度)比较(表3)表明, 除甘蔗的单核苷酸外, 其他物种都表现出三核苷酸的相对数量(丰度)最多, 六核苷酸重复基序次之, 且都是玉米的SSR数量最高, 水稻和甘蔗最少, 而相对数量(丰度)上水稻最高, 玉米和甘蔗最低。
甘蔗和高粱同属于禾本科黍亚科, 两者大约在八至九百万年前由共同祖先分化而来, 且高粱进化相对较慢, 保持了其祖先相对完整的基因组组成[22]。甘蔗和玉米是5个禾本科物种中基因组最大的2个, 因此, 也最有可能出现长SSR序列。从表4可以看出, 所有物种的1~6核苷酸重复基序中, 前3种最长的SSR基序类型基本都是A/T碱基组成的重复基序类型, 而不是C/G重复类型。在单核苷酸重复和二核苷酸重复基序类型中, 最长的核苷酸重复A(88)和AC(910)均出现在玉米的基因组内, 而甘蔗和水稻相对都是最低的。在三核苷酸重复类型中, 最长的核苷酸重复(TGT)369和(ACT)366分别出现在甘蔗和高粱中, 水稻中则最低。对于四核苷酸到六核苷酸重复基序, 长的SSR序列都出现在高粱中, 甘蔗次之。同时, 5个禾本科植物都有一个最长ACAT重复基序, 其余类型除了有1个C/G外, 都由A/T组成。在所有的五核苷酸重复类型中, AATAT重复基序最多, 占到9个, 其余类型只含有1~3个G/C, 说明大多数长的五核苷酸重复类型都是由A/T组成。在六核苷酸重复类型中, 玉米、水稻和二穗短柄草的重复序列长度都远远低于高粱和甘蔗。
Table 4
表4
表45种禾本科植物中前3种最长SSR基序类型
Table 4
项目 Item | 甘蔗 S. spp | 高粱 S. bicolor | 玉米 Z. mays | 水稻 O. sativa | 二穗短柄草 B. distachyon |
---|---|---|---|---|---|
单核苷酸 | (T)75 | (A)71 | (A)88 | (C)51 | (A)49 |
Mono-nucleotide | (T)63 | (A)59 | (A)85 | (A)49 | (C)45 |
(G)49 | (A)53 | (A)83 | (A)48 | (A)43 | |
二核苷酸 | (TA)71 | (AT)280 | (AC)1366 | (AC)170 | (AT)312 |
Di-nucleotide | (TG)69 | (AT)276 | (AC)910 | (AT)104 | (AT)182 |
(TA)55 | (AT)270 | (AT)178 | (AT)100 | (AT)158 | |
三核苷酸 | (TGT)123 | (ACT)366 | (ACC)291 | (AAT)165 | (AAT)225 |
Tri-nucleotide | (ATT)59 | (AAT)327 | (AAT)207 | (AAT)147 | (AAT)171 |
(TTA)56 | (AAT)318 | (ACT)132 | (AAT)126 | (AAT)138 | |
四核苷酸 | (TTAT)23 | (ACAT)524 | (ACAT)196 | (ACAT)132 | (ACAT)196 |
Tetra-nucleotide | (ACAT)25 | (AGAT)388 | (ACAT)144 | (ACAT)96 | (ACAT)180 |
(ATGT)26 | (ACAT)260 | (AAAG)100 | (ACAT)96 | (ACAT)180 | |
五核苷酸 | (CTTTT)29 | (AATAT)740 | (AATAT)115 | (AATAT)55 | (AGATC)100 |
Penta-nucleotide | (TTTTG)25 | (AATAT)430 | (ACTAT)115 | (AATAT)55 | (ACGCC)75 |
(AATAT)24 | (AATAT)315 | (AATAT)85 | (AATAT)55 | (AGATG)65 | |
六核苷酸 | (ATTGTC)43 | (AAATAT)390 | (AATAGT)198 | (ACCTAT)90 | (AACAGC)90 |
Hexa-nucleotide | (TTTTTG)32 | (AGATAT)366 | (AATAGT)72 | (ACATAT)78 | (ACTGAT)78 |
(TTATAT)16 | (AAATAT)294 | (AACCAT)66 | (ACATAT)78 | (AGAGAT)66 |
新窗口打开|下载CSV
2.3 甘蔗SSR重复基序种类及频率特征分析
在甘蔗栽培种基因组中, 单、二、三核苷酸重复基序占比达到76.31%以上, 因此分析其优势重复基序和各种类型SSR序列的碱基组成, 对于进一步筛选和验证多态性SSR引物具有重要作用。如图1所示, 从基序结构出现的频率上看, A/T和G/C占各占84.78%和15.22%, 分别是甘蔗栽培种基因组 SSR 中单核苷酸出现频率最高和最低的结构; AT/TA(31.51%)和CG/GC(6.32%)分别是二核苷酸中出现最多和最少的基序结构; 三核苷酸出现频率最多的结构是TGT/ACA(16.04%), 其次是CGC/GCG、CCG/GGC和GCC/CGG基序结构类型, 分别占12.02%、11.31%、10.67%, 合计占34.00%; 最少的则是TCA/AGT, 占0.35%。甘蔗和4种禾本科植物SSR基序都有碱基的偏好性和规律, 在单核苷酸中, 甘蔗、高粱和水稻A/T的比例也都高于G/C的比例, 分别为84.78%、65.60%和64.40%, 但在玉米和二穗短柄草的结果完全相反; 在二核苷酸中, 甘蔗(31.51%)和其他4个物种(22.6%~54.2%)都是AT/TA重复比例最高, 而GC/CG重复的比例最低, 基本都在3.1%~6.6%之间; 在三核苷酸类型中, CGC/GCG、CCG/GGC和GCC/CGG三者合计在所有物种中都最高, 且以水稻(44.75%)最高, 甘蔗(34.0%)次之, 玉米(12.74%)最低[26]。图1
新窗口打开|下载原图ZIP|生成PPT图11~3核苷酸重复基序类型及数量
Fig. 1Number and types of mono-, di-, and tri-nucleotide repeat motifs
2.4 SSR标记的开发及其扩增效率和多态性验证
根据Pan [12]筛选到21对多态性丰富的SSR引物对应的重复基序类型, 它们以TG和AG重复基序为主, 本研究选择以TG和AG基序类型以及重复次数分别在TG(11~69)、AG(23~38)之间的SSR位点, 对其进行引物设计和合成, 共计50对SSR引物, 对4个不同甘蔗属材料(栽培种R570, 栽培种ROC1, 热带种LA purple 和割手密种SES208)进行SSR扩增和多态性筛选。共有45对引物能够扩增出清晰的扩增条带, 其余的5对引物没有扩增条带或者扩增产物量较弱, 其中35对引物在4个材料上呈现多态性(表5), 多态率为70% (35/50), 其中TG重复类型的引物有28对, AG重复类型的引物有7对。图2显示了部分引物筛选扩增结果。为了进一步验证本研究鉴定到SSR引物的多态性, 选用20对多态性较高的SSR引物, 对我国50年来育成163个甘蔗品种的18个骨干亲本(它们的血缘来自热带种、割手密种、大茎野生种和印度种的2~4个种, 且具有较低的共祖系数)、2个甘蔗祖先种(割手密种SES 208和热带种LA purple)和4个重要甘蔗栽培种(LCP85-384、R570、ROC16和ROC22)进行遗传多样性分析。结果20对引物在24个甘蔗实验材料上呈现多态性, 共扩增得到等位基因95个, 每对扩增出1~7个等位基因(表5), 平均每一对引物扩增出4.75个等位基因。图3展示了其中FAFUR-S22引物在24个供试甘蔗材料上的PCR扩增电泳图谱。Table 5
表5
表5具有扩增多态性的甘蔗SSR引物信息表
Table 5
引物名称 Primer name | 重复基序 Motif | 左引物序列 Left-primer (5°-3°) | 退火温度 Tm (℃) | 右引物序列 Right-primer (5°-3°) | 退火温度 Tm (℃) | 产物大小 Product size (bp) | PIC |
---|---|---|---|---|---|---|---|
FAFUR-S1 | (TG)69 | TCATACCCATTGGAAGAAGC | 60.5 | GTTATGTTGCCGTGCCAAGT | 59.8 | 278 | 0.85 |
FAFUR-S3 | (TG)39 | TAGCCTTTGGTCGTTCTTGG | 58.2 | AATGCTTCATCCATAGGGGA | 59.3 | 259 | 0.84 |
FAFUR-S7 | (TG)32 | GCCTGGGGAACTATGCTGTA | 59.1 | CAAGCATTGAAGTTGCCAAA | 59.0 | 254 | 0.61 |
FAFUR-S12 | (TG)24 | CGTCAGTTGCTCAGCTCTTG | 58.0 | CCCTGGGAAGAAGAGGTAGG | 58.6 | 223 | 0.69 |
FAFUR-S17 | (TG)19 | AATGATGTTTCGCCTGATCC | 60.2 | ACCAACACAACTCGCTACCC | 60.1 | 166 | 0.77 |
FAFUR-S18 | (TG)19 | CCACATTCTTCGACCCTGTT | 59.8 | CCATCCTGCGAACTAACCAT | 59.7 | 183 | 0.71 |
FAFUR-S22 | (TG)18 | AGGGCACGAGGTATTGCTTA | 58.9 | AACCGGTCAAATCACACACA | 59.2 | 179 | 0.68 |
FAFUR-S24 | (TG)17 | ATCTTTCGGCATCAACTTGG | 60.1 | GCTTCAAGCCATCTGTCTCC | 60.3 | 274 | 0.73 |
FAFUR-S32 | (TG)13 | CAACGAATTCCACTTGCACA | 60.0 | TCATGGCTATTGTGGTCTGG | 60.4 | 207 | 0.61 |
FAFUR-S33 | (TG)13 | CTCCTCTGTCACCCAGCACT | 58.8 | GATCACCCCAGATCCAGAGA | 59.6 | 179 | 0.75 |
FAFUR-S34 | (TG)13 | TGCTGATTATGTGCTGCCTC | 58.5 | CACGCCTAGGGCATAAGAGA | 58.4 | 222 | 0.67 |
FAFUR-S36 | (TG)12 | AGGCATGGGAATTTCTCTCC | 60.1 | GGCCTCTCTTTAGTGCAGGA | 59.8 | 265 | 0.77 |
FAFUR-S38 | (TG)12 | GACACCCACCACAGGACTTT | 60.3 | CCCTCCCCAATCCTATCAGT | 60.1 | 198 | 0.66 |
FAFUR-S40 | (TG)11 | GCTGATGTTTGGTCATGTGG | 61.0 | TGCAGACTCAGAAGTAGCCG | 60.5 | 246 | 0.86 |
FAFUR-S41 | (TG)11 | TGTTTCAGGCACTGTTTTGG | 60.9 | AGCAATGTGTTCTCCATCCA | 60.5 | 261 | 0.73 |
FAFUR-S42 | (AG)38 | CGGCACAAGTAAATGCAAGA | 59.7 | AGTACTGCCAACAAGGCAGG | 58.3 | 230 | 0.85 |
FAFUR-S43 | (AG)34 | CTTGAGCTCGTAGCCTCCTC | 60.3 | GCCTCTGCTGTCTGCTCTCT | 59.6 | 267 | 0.92 |
FAFUR-S44 | (AG)31 | AGTGCAGGTTGGCTTTCTGT | 60.2 | GGGGATTCCAAGTCTCAACA | 59.8 | 206 | 0.82 |
FAFUR-S47 | (AG)25 | GTACCAGCCCAAAAACTGGA | 59.8 | TTGTCACTGGGAACACGGTA | 60.1 | 280 | 0.73 |
FAFUR-S49 | (AG)23 | TTCTCCGTCAACTGTCATGC | 59.6 | TCCTACGGAGGGAAATCAAA | 60.2 | 273 | 0.81 |
FAFUR-S4# | (TG)33 | CGACTGGAAGAAGATCGAGG | 58.2 | GAGGTACTGCATGCCCAAAT | 60.1 | 185 | - |
FAFUR-S5# | (TG)33 | CTTCCTCCCAGTAGCCGAGT | 59.3 | TCTCGAATTCGCAAGGAACT | 57.9 | 257 | - |
FAFUR-S6# | (TG)32 | GGAAGGAGGAGATGGAAAGG | 59.4 | CGCAACACGTACACACACAC | 59.6 | 245 | - |
FAFUR-S9# | (TG)26 | GTTTTCTTCTCGGAGGGGAG | 57.9 | AATGCTGGGATCGAAGTTTG | 60.2 | 213 | - |
FAFUR-S15# | (TG)20 | TGCTATCTCCTGCTTGGACA | 60.2 | GCCTCACACACACACACACA | 59.4 | 268 | - |
FAFUR-S16# | (TG)19 | TGCTTGCTAGCTTGGCACTA | 60.4 | ACAACTAGGCCATCAGTGGG | 59.7 | 268 | - |
FAFUR-S19# | (TG)19 | AGCCCAACAGAAATACGCAC | 60.6 | GGGCTCACTCAAAAACCAAA | 58.8 | 269 | - |
引物名称 Primer name | 重复基序 Motif | 左引物序列 Left-primer (5°-3°) | 退火温度 Tm (℃) | 右引物序列 Right-primer (5°-3°) | 退火温度 Tm (℃) | 产物大小 Product size (bp) | PIC |
FAFUR-S20# | (TG)18 | TCGATTGGAGTCTTCAGCAA | 59.9 | CCCATGAGATTGTATTCGGC | 60.3 | 269 | - |
FAFUR-S21# | (TG)18 | TGCACTGTTTAAATTCCCCC | 60.3 | AAATCTCCCTTCATGATGCC | 58.8 | 229 | - |
FAFUR-S25# | (TG)17 | TCGTAGAAGCACTTCAGGGAG | 58.8 | CCAAAATAAGGCCATCGAAA | 60.1 | 162 | - |
FAFUR-S26# | (TG)17 | CTTTGTCCCCTTCTCCATCC | 57.9 | TCTCGAAGTCGCAAGGAACT | 60.5 | 185 | - |
FAFUR-S28# | (TG)16 | TGGCTCACTGAAAATCTCCC | 61.1 | TGTGTGGCAAGATAAGAAGGG | 60.3 | 250 | - |
FAFUR-S29# | (TG)15 | TGCTGATTATGTGCTGCGTC | 59.6 | ATCGATCACACACCTAGGGC | 59.5 | 234 | - |
FAFUR-S46# | (AG)25 | ATCGATCCTGGGGTAGCTTT | 58.4 | TTTCCTCTGCAAGACTGCAA | 58.7 | 262 | - |
FAFUR-S48# | (AG)23 | TTCCAGATTCTTTTCCACGG | 60.3 | GTCACCTGGGAACTACCCCT | 59.6 | 257 | - |
新窗口打开|下载CSV
图2
新窗口打开|下载原图ZIP|生成PPT图27对不同SSR引物在4个甘蔗属材料上扩增的电泳图
1~4: FAFUR-S44; 5~8: FAFUR-S45; 9~12: FAFUR-S46; 13~16: FAFUR-S47; 17~20: FAFUR-S48; 21~24: FAFUR-S49; 25~28: FAFUR-S50。4个扩增产物为SES208 (1, 5, 9, 13, 17, 21, 25)、LA purple (2, 6, 10, 14, 18, 22, 26)、ROC16 (3, 7, 11, 15, 19, 23, 27)和R570 (4, 8, 12, 16, 20, 24, 28); M: 50 bp DNA ladder (3421A)。
Fig. 2Electrophoretic patterns of seven pairs of SSR primers amplified in four Saccharum clones
1-4: FAFUR-S44; 5-8: FAFUR-S45; 9-12: FAFUR-S46; 13-16: FAFUR-S47; 17-20: FAFUR-S48; 21-24: FAFUR-S49; 25-28: FAFUR-S50. The amplification products of four samples were SES208 (1, 5, 9, 13, 17, 21, 25), LA purple (2, 6, 10, 14, 18, 22, 26), ROC16 (3, 7, 11, 15, 19, 23, 27), and R570 (4, 8, 12, 16, 20, 24, 28). M: 50 bp DNA ladder (3421A).
图3
新窗口打开|下载原图ZIP|生成PPT图3SSR引物(FAFUR-S22)在24个甘蔗材料上扩增的电泳图
1: Co 1001; 2: Co 419; 3: CP28-11; 4: CP49-50; 5: CP67-412; 6: CP72-1210; 7: F108; 8: NCo310; 9: ROC1; 10: 川73-219; 11: 桂糖11号; 12: 华南56-12; 13: POJ2878; 14: 科5; 15: 崖城71-374; 16: 粤农73-204; 17: 云蔗65-225; 18: 华南56-21; 19: LCP85-384; 20: R570; 21: ROC16; 22: ROC22; 23: LA purple; 24: SES208; M: 50 bp DNA ladder (3421A)。
Fig. 3Electrophoretic patterns of SSR primers FAFUR-S22 in twenty four tested Saccharum clones
1: Co 1001; 2: Co 419; 3: CP28-11; 4: CP49-50; 5: CP67-412; 6: CP72-1210; 7: F108; 8: NCo310; 9: ROC1; 10: C73-219; 11: Guitang 11; 12: Huanan 56-12; 13: POJ2878; 14: Ke 5; 15: Yacheng 71-374; 16: Yuenong 73-204; 17: Yunzhe 65-225; 18: Huanan 56-21; 19: LCP85-384; 20: R570; 21: ROC16; 22: ROC22; 23: LA purple; 24: SES208; M: 50 bp DNA ladder (3421A).
基于上述20对SSR引物所给出的95种等位基因类型, 对24份甘蔗属材料的UPGMA聚类分析, 供试材料之间的遗传相似系数分布在0.40~0.82之间(图4), 在遗传相似性系数为0.525时, 可将24个甘蔗材料分成5种类型, 第1种类型包含甘蔗栽培种Co 1001和Co 419; 第2种类型有19个甘蔗材料; 第3种类型为1个甘蔗材料热带种类型LA purple; 第4类型为1个甘蔗栽培种材料CP28-11; 第5种类型为1个割手密种SES 208。需要注意的是, 在相似性系数为0.4时, 割手密种SES208与其他甘蔗栽培种和热带种(LA purple)较早分开, 表明割手密种与甘蔗栽培种具有较远的遗传关系。根据张琼等[29]分析结果, CP28-11具有热带种(0.5)、割手密(0.125)和印度种(0.375)的血缘关系, 遗传关系介于割手密和热带种之间。本研究中, 热带种(LA purple)在相似性系数为0.525时与其他栽培种分开, 接着是印度种Co 1001和Co 419在相似性系数为0.551时与其他栽培种分开, 表明印度种亲缘关系介于热带种与甘蔗栽培种之间, 也具有较丰富的遗传多样性。
图4
新窗口打开|下载原图ZIP|生成PPT图4基于SSR分子标记的24份甘蔗属材料的UPGMA聚类分析
Fig. 4UPGMA dendrogram of twenty four Saccharum clones based on SSR markers
3 讨论
SSR分子标记具有多态性高、重复性好、操作简便及共显性等优点, 被广泛应用于甘蔗指纹图谱构建[11]、遗传多样性分析[12,13,14]、遗传连锁图谱构建及QTL定位等方面[15,16,17,18]。但目前尚未完全破译甘蔗栽培种基因组, 对于SSR标记开发仅仅停留在BAC文库和表达序列标签(EST)水平。本研究首次利用已经完成的甘蔗栽培种单倍体基因组数据, 分析SSR在基因组分布频率、基序类型及序列特征等相关信息, 对于甘蔗基因组遗传研究和分子标记开发提供重要数据支撑。3.1 甘蔗栽培种基因组 SSR 位点的特征分析
本研究从甘蔗栽培种R570的4660个BAC文库序列组装的单倍体基因组(累计总长为382 Mb, 预测到25,316个编码蛋白基因)中, 共发现27,241个SSR位点, 在基因组中1~6核苷酸重复基序中, 单核苷酸重复基序占比最高,达到40.67%, 其次是三核苷酸(占23.67%)、二核苷酸重复基序(占11.97%)。这与拟南芥[30]、水稻[30]、小麦[31]、玉米[3]、棉花[31]、马铃薯[32]、苹果[15]和葡萄[33]的基因组SSR位点中存在大量的单、二、三核苷酸的结果基本一致; 与高粱[26,34]、根瘤菌和秀丽线虫[35]的研究结果不同, 它们的基因组SSR位点以四、五、六核苷酸重复基序为主。一般情况下, 短重复基序占多数表明物种进化水平相对较高[36], 而长重复基序占多数的物种具有较低的突变频率或较短的进化时间[37]。甘蔗与高粱在八至九百万年前由共同祖先分化而来, 高粱进化相对较慢, 保持了相对完整的祖先基因组构成[22]。本研究结果进一步说明, 与高粱相比, 甘蔗在进化与分类地位中处于相对较高水平, 其基因组也经历了较长的进化时间或具有较高的突变频率。但是, 甘蔗栽培种基因组遗传基础复杂、杂合度高, 尚未完成基因组测序, 本研究仅依据高粱基因组为参考, 利用BAC文库序列拼装一套甘蔗单倍体基因组作为SSR挖掘的模板[25], 基因组数据并不完整。因此, 分析结果尚无法与其他物种上的SSR数据比较, 但是也初步证明了与大多数禾本科植物具有相似的核苷酸基序组成。在不同物种的SSR位点信息特征研究方面, SSR基序的结构组成, 尤其是1~3核苷酸重复基序具有明显的偏好性和规律性, 但4~6核苷酸重复基序, 由于基序类型呈现指数上升(分别是2,521,020和4092), 碱基偏好性和规律性表现的不明显。本研究结果显示, 甘蔗栽培种基因组序列中, 单核苷酸重复基序类型以A/T出现的次数最多(占84.78%), 这与水稻、高粱[26]、苹果[15]和烟草[38]的研究结果一致, 但是与二穗短柄草、玉米G/C基序结构出现次数不一致[26]; 而二核苷酸重复基序类型则以AT/TA出现的次数最多(占31.51%), CG/GC(占6.32%)最少, 该结果与高粱、烟草、苹果的研究结果一致, 但是在其他禾本科植物小麦[39]、二穗短柄草、水稻和玉米中不一致[26], 它们是以AG重复类型最多; 三核苷酸重复基序类型以TGT/ACA (16.04%)出现的次数最多(占16.04%), 其次是含有CGC/GCG等6类不同组合基序类型(合计占34.0%), 与拟南芥(AAG/TTC)、烟草(AAC/TTG)、苹果(AAC/GTT)基本相似, 与大麦、小麦、玉米、水稻、高粱、黑麦等其他禾本科作物有所不同, 它们以CCG/GCC出现次数最多, 而ATT/TAA最少。综合以上, 甘蔗的1~3核苷酸重复基序均以A和T核苷酸构成的基序为主要类型, 这与真核生物基因组SSR位点分析结果基本一致[36], 产生这样的结果有2种可能原因, 一是甲基化的C残基转变为T[40]; 二是在DNA复制过程中产生SSR位点, 基于A、T结构类型基序比G、C类型需要较少能量, 导致富含A、T碱基结构类型比G、C类型容易产生[38], 但是随着核苷酸重复类型从3增至6时, 这种氢键的能量优势就相对不明显了。
3.2 甘蔗栽培种基因组SSR 的多态性分析和应用
近年来, 随着基因组测序技术进步和测序成本的降低, 已经完成许多生物基因组测序, 这些测序结果对于相应物种基因组SSR标记开发和应用提供了数据支撑, 还可以利用所开发的SSR标记对未测序的近缘物种进行遗传分析, 加快其群体结构分析、遗传多样性研究、亲缘关系鉴定、重要性状的功能基因QTL定位及关联标记开发与应用。本研究通过分析Pan等[12]筛选和鉴定的21对多态性丰富的SSR引物的重复基序类型, 选择了50对SSR引物, 它们由TG(41对)和AG(9对)基序重复类型组成。此外, 利用4个甘蔗属材料进行PCR扩增和多态性分析, 共有45对引物扩增到预期的扩增片段, 其中TG和AG基序类型的分别有37对(扩增效率90.24%)和8对, 扩增效率为88.89%, 远高于Cordeiro等[41]开发甘蔗EST-SSR引物的60%, 也高于Oliveira等[14]开发的甘蔗基因组SSR的70%、Bushman等[42]针对多年生黑麦草开发的基因组和EST-SSR的75 %、Fernandez等[43]获得的甜瓜基因组和EST的79 %和Hwang等[44]发掘的西瓜EST-SSR的79%。此外, 在我们设计的50对SSR引物中, 有35对呈现出明显的多态性, TG和AG基序类型分别有28对和7对, 且AG基序的多态性(77.78%)高于TG类型(68.29%)。本研究还在对SSR标记初步扩增分析的基础上, 进一步利用24个甘蔗重要亲本材料验证上述20对SSR引物的多态性。结果20对引物扩增出95种不同等位基因, 每对引物扩增1~8个等位基因, 平均每对引物扩增4.75个。与Pinto等[45]的6.04个、Oliveira等[14]的7.55个、Marconi等[46]的6.0个相比, 本研究开发的甘蔗SSR引物扩增出的等位基因偏少, 主要原因应该是不同研究所采用的电泳分离方法存在差异, 当将本研究鉴定的SSR引物应用于甘蔗遗传研究时, 建议进一步优化PCR扩增条件, 同时采用分辨率更高的电泳分离方法, 比如变性聚丙烯酰胺凝胶电泳、毛细管电泳等, 以便更准确和高效地对目标材料进行扩增和多态性分析。同时, 20对SSR引物扩增的多态性信息量(PIC)的变异幅度在0.61~0.92之间, 平均值为0.78, 说明本研究所筛选和鉴定的SSR引物所扩增出来的条带多态性丰富。特别需要指出的是, 川73-219和粤农73-204在相似性系数为0.9时没有分开, 说明两者亲缘关系非常近, 需要用更多SSR引物鉴定和分析。
综上所述, 本研究利用大小约为382 Mb的甘蔗栽培种R570的单倍体基因组, 开发了27,241个SSR位点, 平均每BAC片段有6.29个。通过分析和比较其他物种基因组序列上SSR位点、类型及结构等特征, 设计了50对SSR引物, 分别利用4个甘蔗属近缘种(R570、ROC1、LA purple和SES 208)和24个甘蔗重要杂交亲本材料, 进行扩增效率和多态性分析, 获得了20对引物扩增条带清晰、多态性条带比率高, 具有较好应用前景的SSR标记。这20对引物在24个甘蔗杂交亲本中扩增出95种不同等位基因, 每对引物扩增1~8个等位基因之间, 平均为4.75个。本研究建立的SSR引物筛选和鉴定方法, 对于开发高质量多态性SSR标记具有积极的借鉴作用; 所开发的20对具有良好多态性的SSR标记, 能够为甘蔗及其近缘种的品系鉴定、遗传多样性分析、遗传图谱构建及重要性状的遗传机制解析等提供了分子标记支撑。
参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子
,
[本文引用: 1]
[本文引用: 1]
URL [本文引用: 1]
[本文引用: 2]
[本文引用: 2]
,
[本文引用: 1]
,
[本文引用: 2]
,
[本文引用: 2]
,
[本文引用: 1]
,
[本文引用: 1]
,
[本文引用: 1]
,
[本文引用: 1]
,
[本文引用: 2]
,
[本文引用: 4]
,
[本文引用: 4]
,
[本文引用: 5]
,
[本文引用: 4]
[本文引用: 4]
,
[本文引用: 3]
[本文引用: 3]
,
[本文引用: 2]
,
[本文引用: 2]
,
[本文引用: 1]
,
[本文引用: 2]
,
[本文引用: 1]
,
[本文引用: 3]
,
[本文引用: 1]
,
[本文引用: 1]
,
[本文引用: 2]
,
[本文引用: 6]
[本文引用: 6]
,
[本文引用: 1]
,
[本文引用: 1]
,
[本文引用: 1]
[本文引用: 1]
,
[本文引用: 2]
,
[本文引用: 2]
,
[本文引用: 1]
,
[本文引用: 1]
[本文引用: 1]
,
[本文引用: 1]
[本文引用: 1]
[本文引用: 1]
[本文引用: 1]
,
[本文引用: 2]
,
[本文引用: 1]
,
[本文引用: 2]
[本文引用: 2]
,
[本文引用: 1]
,
[本文引用: 1]
,
[本文引用: 1]
,
[本文引用: 1]
,
[本文引用: 1]
,
[本文引用: 1]
,
[本文引用: 1]
,
[本文引用: 1]