Progress in plant paleogenomics
Taikui Zhang
基金资助: |
Fund supported: |

张太奎, 苑兆和. 植物古基因组学研究进展. 遗传[J], 2018, 40(1): 44-56 doi:10.16288/j.yczz.17-191
Taikui Zhang, Zhaohe Yuan.
植物古基因组学是一门从现存物种中重建和分析其祖先基因组的学科,旨在研究植物祖先基因组的进化历史[1,2]。随着测序技术不断革新,测序成本不断降低,目前已公布了180多种植物的参考基因组数据[3],其中甜橙(Citrus sinensis)[4]、黄瓜(Cucumis sativus)[5]和巨桉(Eucalyptus grandis)[6]等植物基因组组装到染色体水平;海草(Zostera marina)[7]、挪威云杉(Picea abies)[8]和毛竹(Phyllostachys heterocycla)[9]等植物基因组组装到Scaffold水平,这为古基因组学研究提供了大量有价值的序列数据资源。古基因组学计算依赖于序列测序准确度和组装水平,低质量的序列会影响古基因组学计算的准确度。如何提高基因组测序和组装的准确度和长度一直是本研究领域所关注的热点。
近年来,大批量植物基因组测序和重测序项目推动了古基因组学的发展,提出的全基因组复制(whole-genome duplication,WGD)(或古多倍化)事件是植物基因产生新功能化的主要进化推动力[10,11],为植物适应基因重复提供原始材料,有益于植物适应生理和遗传改变[12]。有研究报道,通过古基因组学研究可溯源到由7931条原基因模型和7条染色体构成的双子叶植物祖先基因组,以及由9138条原基因模型和5条染色体构成的单子叶植物祖先基因组[1]。而在裸子植物进化史中,WGD事件使松柏类植物与其他裸子植物分化开来[13],银杏除与被子植物共享一次WGD事件外,近期发生过一次银杏特异性WGD事件[14]。由于裸子植物基因组数据有限,裸子植物祖先基因组基因模型尚未确定。
1 植物基因组测序与组装
基因组(genome)是指一个物种单倍体的染色体数目及其所携带的全部基因,包括每个染色体的序列加上细胞器中的任何DNA,本文主要指植物核基因组。植物基因组通常具有重复序列多、多倍化和杂合度高等特征,使基因组组装复杂化[15,16]。由于Sanger、454、SOLid和Illumina测序技术读长短,不能有效地组装基因组复杂重复区域,特别是非自交或重排杂合基因组[17]。随着高通量测序技术的发展,第三代单分子实时测序(single-molecule real-time sequencing, PacBio)技术使基因组测序读长更长,可以辅助组装出高质量的植物基因组[3]。近年来,已综合运用PacBio和其他测序技术成功组装了凤梨(Ananas comosus)、欧洲白桦(Betula pendula)、芥菜(Brassica juncea)、木豆(Cajanus cajan)、藜麦(Chenopodium quinoa)、一年生辣椒(Cpsicum annuum)、中华辣椒(C. chinense)、复活草(Oropetium thomaeum)、向日葵(Helianthus annuus)、大麦(Hordeum vulgare)、报春花(Primula veris)、海带(Saccharina japonica)、丹参(Salvia miltiorrhiza)和丝叶狸藻(Utricularia gibba)等植物基因组(表1)。目前,植物基因组测序项目多采用联合使用多种测序技术的策略,相比单一测序途径具有多种优势。主要表现在:(1)克服高杂合度。例如,凤梨属于自交不亲和、杂合度较高的经济作物。凤梨栽培种‘F153’(A. comosus ‘F153’)基因组存在较高杂合度(1%~2%),发现其k-mer深度频率统计分布中存在2个明显的峰:位于约110层深度处的纯合峰和位于约220层深度处的杂合峰[18]。为克服高杂合度,对F153和其近缘种(A. bracteatus)杂交F1代进行测序,并综合运用454、Illumina和PacBio测序技术,组装出高质量(Scaffold N50 高达11.8 Mb)凤梨基因组;(2)克服复杂倍性。例如,芥菜是Brassica属异源多倍体作物,基因组k-mer频率分布图左峰略微突起,表明其杂合度较低,但复杂倍性使其基因组组装更加困难[19]。Yang等[19]综合运用Illumina和PacBio技术对芥菜基因组进行组装,基因组Scaffold N50高达855 kb;(3)克服高比例重复序列。例如,复活草基因组是已知草类最小的基因组,其重复序列比例显著高于其他草类物种[15]。VanBuren等[15]结合Illumina和PacBio测序技术组装得到复活草基因组,Scaffold N50高达7.1 Mb,组装效果好。复活草基因组较低的杂合度(0.087%)可能与基因组的高连续性相关。向日葵基因组3/4以上的序列是重复序列,组装难度大[20]。Badouin等[20]使用PacBio技术成功组装出3.6 Gb向日葵参考基因组序列。大麦基因组较大(4.79 Gb),而且80.8%的序列属于重复序列,组装难度大,联合使用454、Illumina Hiseq和PacBio测序技术提高了Scaffold长度和精准度,Scaffold N50长达1.9 Mb[21];(4)克服祖先基因组倍性复杂且基因组较大的问题。例如,栽培花生(Arachis hypogaea)是一个异源四倍体(AABB),由二倍体花生A. duranensis (AA)和A. ipaensis (BB)杂交及多倍化而来。栽培花生基因组较大(约2.7 Gb),重复序列比例高达64%,基因组组装难度大。经多倍化后,栽培花生亚基因组A(1.25 Gb)和亚基因组B(1.56 Gb)改变较小,可以通过两个亚基因组组装成完整基因组,运用多种测序方法对A. duranensis和A. ipaensis基因组进行测序,构建了高质量的栽培花生祖先基因组草图[22]。对凤梨、芥菜、大麦、向日葵、复活草和花生等基因组的组装表明,联合应用多种测序技术有助于提高基因组的组装效果,提供更可靠的参考基因组序列。
Table 1
表1 部分植物基因组组装情况
Table 1
物种 | 测序技术 | 基因组大小 | 重复序列比例(%) | 倍性 | 杂合度(%) | N50 (kb) Scaffold/Contig | 文献 |
凤梨 | 454+Illumina Hiseq+PacBio | 382 Mb | 44 | 二倍体 | 1~2 | 11800/126.5 | [18] |
芥菜 | Illumina Hiseq+PacBio | 955 Mb | 33 | 异源四倍体 | ― | 855/61.3 | [19] |
花生基因组A亚组 | Sanger+454+Illumina Hiseq+ PacBio | 1.25 Gb | 61 | 二倍体 | ― | 948/222.93 | [22] |
花生基因组B亚组 | 1.56 Gb | 68 | 5343.3/234.92 | ||||
巨桉 | Sanger+Illumina | 640 Mb | 50 | 二倍体 | ― | 5000/2261 | [6] |
一年生辣椒 | Sanger+454+Illumina Hiseq+ Illumina GA | 3.06 Gb | 76 | 二倍体 | 0.005 | 2470/30.0 | [23] |
中华辣椒 | 79 | ||||||
木豆 | Sanger+Illumina Hiseq+Illumina GA | 605.78 Mb | 51 | 二倍体 | ― | 516/21.9 | [24] |
丝叶狸藻 | PacBio | 101.95 Mb | 58 | 二倍体 | ― | 3424.836 | [25] |
欧洲白桦 | 454+SOLid+Illumina MiSeq+PacBio | 440 Mb | 49.23 | 二倍体 | ― | 527.7 | [26] |
藜麦 | Illumina Hiseq+PacBio | 1.39 Gb | 64 | 二倍体 | ― | 3846.917 | [27] |
大麦 | 454+Illumina Hiseq+PacBio | 4.79 Gb | 80.8 | 二倍体 | ― | 1900/79 | [21] |
向日葵 | Sanger+PacBio | 3.6 Gb | 41.2 | 二倍体 | ― | 13.7 | [20] |
复活草 | Illumina Hiseq+PacBio | 245 Mb | 43 | 二倍体 | 0.087 | 7100/2400 | [15] |
报春花 | Illumina Hiseq+Illumina Miseq+ PacBio | 301.8 Mb | 7 | 二倍体 | ― | 164/9.5 | [28] |
海带 | 454+Illumina Hiseq+PacBio | 537 Mb | 40 | 二倍体 | ― | 252/58.9 | [29] |
丹参 | 454+Illumina Hiseq+PacBio | 558 Mb | 54 | 二倍体 | 0.003 | 51/12.4 | [30] |
2 植物古基因组学
古基因组学(paleogenomics)最有可能的进化场景主要基于以下假想推断[31]:(1)基于现存物种间直系同源基因重复等事件追溯祖先基因组;(2)基于插入、删除、融合、分裂、易位等事件的最小数量推断从祖先基因组到现存核型的进化历史。其中AL(比对长度AL = ∑高分基因对长度)、CIP(CIP= ∑(高分基因对同源率/AL)×100)和CALP(CALP=AL/长度CDS)是古基因组学计算所需的关键参数[31]。目前,在基于进化关系的比较基因组学中广泛使用经典的CIP/CALP阈值,该阈值等于70%则代表亲缘关系较近的物种基因组间共同祖先可以追溯到50百万年前(million year ago, MYA)以内,该阈值等于50%则代表分化较远的物种基因组间共同祖先可以追溯到50 MYA以外。Salse等[2]提出“三步法”构建祖先基因组,即分析基因组内共线性,鉴定系列特异性基因组内改变事件,推断共有基因组改变事件。不断更新的植物参考基因组序列数据为古基因组学研究提供了更多资源,Murat等[32]对显花植物祖先基因组进化模式进行分析,构建出由7010条原基因模型和7条染色体构成的草类祖先核型、由6284条原基因模型和7条染色体构成的双子叶植物祖先核型、由6707条原基因模型和5条染色体构成的单子叶植物祖先核型以及由1175条原基因模型和15条染色体构成的显花植物最近共同祖先核型,首次系统推断了被子植物祖先基因组的进化史。3 植物全基因组复制事件
3.1 WGD研究历程
研究植物古基因组学的关键途径是确定WGD事件。1970年,Ohno[33]首次提出多倍化即全基因组复制的假想,阐释二倍体基因组通过WGD进化为四倍体的途径。1997年,Wolfe等[34]在酿酒酵母(Saccharomyces cerevisiae)基因组中证实了WGD假想。2000年,首例植物全基因组草图测序完成,解析了拟南芥(Arabidopsis thaliana)基因组进化历史,提出拟南芥可能有一个四倍化祖先[35]。2007年,葡萄(Vitis vinifera)基因组测序完成,古基因组学研究表明葡萄的祖先基因组可能是古六倍体[36]。对葡萄基因组重复事件的研究奠定了双子叶植物祖先基因组共享六倍化的理论基础,并开启了被子植物祖先基因组进化历史研究的大门。2008年,小立碗藓(Physcomitrella patens)基因组测序完成。通过古基因组学研究发现,陆地植物最近的共同祖先基因组在多倍化后发生重要基因功能分化,如(1)丢失适应水生环境、动力蛋白运输相关基因;(2)获得转运能力、信号转导、抗非生物胁迫相关基因;(3)整体提高基因家族复杂度,这为理解陆地植物进化提供了可靠资源[37]。2011年,卷柏(Selaginella moellendorffii)基因组测序完成,虽然通过比较基因组学没有发现古多倍化证据,但为理解陆地植物基因组进化提供了重要资源[38]。2013年,无油樟(Amborella trichopoda)基因组测序草图公布,WGD分析表明其分化发生在古六倍化前,这为理解被子植物基因组和基因进化提供了重要参考[39]。2015年,凤梨基因组测序完成,古基因组学研究表明其基因组发生了2次WGD事件,染色体重排少,并且保留了单子叶植物祖先基因组多倍化后28条染色体中的25条核型,是保守的单子叶植物参考基因组[18]。2016年,银杏基因组草图完成,古基因组学研究表明银杏发生了2次WGD事件,其中较近1次是银杏特异性WGD[14]。2017年,向日葵基因组测序完成,古基因组学研究表明其经历了3次WGD事件:29 MYA发生的太阳花种系特异性WGD,38~50 MYA菊分支(Asterids)Ⅱ物种共有的WGD,以及122~164 MYA双子叶植物共有的古六倍化,为研究菊分支物种古基因组学进化场景提供了依据[20]。越来越多的植物基因组测序完成,这为古基因组学研究提供了大量资源(图1)。显花植物进化研究表明(图1),被子植物基因组经历了二倍化(α)、四倍化(β)和六倍化(γ)3次古WGD事件,禾本目谷类植物基因组经历了ρ、τ和σ 3次WGD事件[40],植物ρ事件发生在禾本目(Poales)内95~ 115 MYA,小麦、玉米和水稻分化之前,草类和凤梨分化之后[18]。图1

Fig. 1A paleohistorical scenario of angiosperm genomes
3.2 WGD鉴定方法
目前,主要通过基因组共线性分析、旁系同源基因Ks峰值分布和祖先基因系统发育3种证据链鉴定基因组WGD事件。通过基因组共线性分析发现基因组内存在大量共线区域,是古WGD事件存在的直接证据[18,41],可以通过SynMap(https://genomevolution. org/coge/SynMap.pl)鉴定基因组内部共线性区域及深度和基因组间共线性区域[42]。例如,从凤梨基因组内部鉴定出的388个共线性区域包含64%注释的基因,并分布在25个连锁群,表明凤梨基因组进化历史中存在WGD事件;共线深度分析发现35%基因组存在不止1处重复区域,说明在凤梨系谱中发生了多次WGD事件[18]。在基因组间共线性分析中,无油樟∶葡萄(1∶3)共线性区域定位到古六倍化事件,说明检测到的WGD事件是2种物种共有的。基因组旁系同源基因Ks分布分析是鉴定WGD事件的一种常用途径[14,43],先通过Orthomcl聚类获取旁系同源基因对,然后依据Ks计算值绘制分布图。WGD会导致基因重复峰值的产生,最后通过识别峰值确定WGD事件。但是,串联重复基因积累会影响Ks峰值分布。通过旁系同源基因Ks分布分析已成功在毛竹[9]、鹰嘴豆(Cicer arietinum)[44]、大豆(Glycine max)[45]、小兰屿蝴蝶兰(Phalaenopsis equestris)[46]和银杏[14]等物种基因组中鉴定出WGD事件。祖先基因系统发育分析也是一种鉴定WGD事件的有效途径,即通过系统发育分析识别祖先重复节点基因,进而推断分化时间,再通过祖先基因组重复基因分化时间分布峰值图判断物种间WGD事件[39,46]。通过系统发育研究得到414个无油樟和其他被子植物祖先基因共有节点,其中62%节点构成第一个峰,发生在244 MYA,38%节点构成第二个峰,发生在341 MYA[39]。3.3 WGD在植物进化中的作用
WGD在植物基因组塑形方面具有重要作用,伴随基因丢失的WGD事件被视为植物基因新功能化的主要进化力量[10,11]。泥炭藓纲(Sphagnopsida)最近WGD事件早于泥炭藓属(Sphagnum)从泥炭藓纲其他两个属分化出来的时间,表明最近WGD已成为优先于泥炭藓分化的重要因子,并促进了它们在泥炭湿地中的生态主导地位[47]。在核心真双子叶植物基因组γ事件后,核心真双子叶植物分支物种中祖先基因组散存的重复基因起源于大规模基因搬迁,表明γ事件之后的大规模基因搬迁与核心真双子叶植物分支多样化相关[48]。此外,WGD还为植物适应基因重复的形成提供了原始材料,多倍体比二倍体表现出更强的离子吸收能力和抗逆能力,这种生理关联有益于植物适应新环境或具有挑战性的环境,同等条件下多倍体还会增加种群内适应的速度[12]。同源多倍体来源于种内WGD事件,异源多倍体来源于种间杂交[49]。芸薹属(Brassica)植物经历了3次基因组WGD事件(α、β和γ)[50,51]和种系全基因组三倍化事件[19],是基因组多倍化研究的重要模式物种。海岸红杉(Sequoia sempervirens)是裸子植物中罕见的同源六倍体,是研究裸子植物多倍化的重要材料。海岸红杉基因组WGD事件表明:裸子植物稀有的多倍化可能是由该分支缓慢的二倍化导致的[52]。
4 植物祖先基因组进化
图1描绘了被子植物祖先基因组的进化历程,双子叶植物祖先基因组有7条染色体,单子叶植物祖先基因组有5条染色体,草类祖先基因组有7条染色体,被子植物祖先基因组有15条染色体[32]。和大多数被子植物中检测到的与被子植物家族或更小分支特异性相关的古多倍化事件相比,大多数双子叶植物祖先基因组在进化史中发生了更早的(130~ 150 MYA)古六倍化事件[39]。对西瓜(Citrullus lanatus)古基因组学研究发现,在其基因组进化中发生了7次三倍化,从双子叶植物祖先基因组7条染色体经历了81次分裂和91次融合才形成现存西瓜的11条染色体[53]。凤梨基因组对研究单子叶植物祖先基因组进化具有重要作用,染色体核型进化表明其进化路线开始于单子叶植物祖先基因组的5条染色体,经τ事件后先出现10条染色体后减到9条染色体,经σ事件后出现27条染色体,然后发生8次融合和6次分裂,最终被整合到现存的25条染色体中[32]。复活草基因组和其他草类基因组共同经历了ρ WGD事件[15],二穗短柄草与小麦、水稻、高粱分化时间分别为32~39 MYA、40~53 MYA、45~60 MYA,其基因组内部重复分化时间发生在56~72 MYA,早于草类分化时间[54]。整合银杏基因组学[14]和古生物学[55]研究表明,银杏可能起源于种子蕨类植物,其基因组经历了2次WGD事件,先后发生在515~735 MYA和74~ 147 MYA。被子植物共有银杏较古老的一次WGD事件,较近的一次可能是银杏特异性WGD事件(图2)。松柏类植物是裸子植物中庞大的一个类群,具有较大的基因组(20~40 Gb,显著大于银杏基因组10.61 Gb),约300 MYA起源于古老的种子植物[56]。Li等[13]对22种裸子植物进行转录组分析,发现裸子植物基因组经历了3次WGD事件,其中2次位于松柏类植物分支(图2)。在裸子植物进化史中,WGD事件使松柏类植物与其他裸子植物分化开,松科和柏科均独自经历1次WGD事件。海岸红杉是柏科中现存的唯一的自然六倍体物种,对其基因组WGD事件进行分析,发现两次WGD事件,先后发生在1.5~10 MYA和0.4~3 MYA[52]。

Fig. 2A diagram of WGD events in seed plants and gymnosperm paleohistory
5 展 望
基因组多倍化使植物基因组快速重组,丢失大量基因,增加结构变异[57],是植物基因组进化的重要动力,有利于植物适应新的环境[12,49,58,59]。WGD事件使被子植物基因组大小增加,但平均基因组大小与倍性并不相关[60]。WGD事件发生后,常发生大量同源基因对丢失[61],使鉴定古老的WGD极其困难。通过植物进化重建WGD使推断基因组共线数据更加困难,尤其是使用组装不完整基因组序列检测物种间共线性关系。测序技术在不断革新,测序长度越来越长,准确度和完整度逐步提高,综合运用二代和三代测序平台将为植物古基因组学研究提供更可靠的数据。目前,已有多个组学大数据管理平台储存和提供可靠的植物全基因组序列资源,如JGI(参考文献 原文顺序
