The origin and evolution history of East Asian populations from genetic perspectives
东亚位于欧亚大陆东部,连接东南亚、中亚和北亚地区,是研究解剖学意义上现代人(anatomically modern human, AMH)迁徙扩散和演化的重要地带之一。该地区幅员辽阔、地形地貌复杂多样,有超过16亿的人口数量,大约占全世界人口总数的1/4。同时,环境资源丰富、民族文化众多等背景条件,使得东亚成为研究人类起源演化、民族族源历史和语言农业文化传播等的重要地区之一。
在过去的几十年中,对东亚人群的遗传学研究主要集中在线粒体DNA(mitochondrial DNA, mtDNA)和Y染色体(Y chromosome)方面。在mtDNA研究方面,从最初的限制性片段长度多态(restriction fragment length polymorphism, RFLP)[1],到高变区(hypervariable segments, HVS)和部分编码区测序[2, 3],再到mtDNA全基因组测序[4, 5],mtDNA研究已经成为揭示东亚人群起源演化的主要手段之一。尤其是中国科学院昆明动物研究所张亚平研究员团队基于高分辨率的mtDNA全基因组数据构建的东亚人群系统发育树[4, 5],以及由此发展而出的用于甄别人为重组(artificial recombination)等质量问题的方法[6],在揭示东亚人群的源流历史及民族演化中发挥了重要作用。Y染色体的研究目前则以非重组区(non- recombination regions of Y chromosome, NRY)的单核苷酸多态性(single nucleotide polymorphism, SNP)以及短串联重复序列(short tandem repeat, STR)为主。基于Y染色体遗传多态性等信息,复旦大学金力教授团队从父系遗传角度系统探讨东亚人群的起源、迁徙和遗传结构,对东亚人群是否起源于本土等重大问题提供了新的认识,奠定了东亚人群起源、迁徙历史和遗传结构的框架基础[7,8,9,10]。近年来,随着mtDNA和Y染色体系统发育树的不断完善[11,12,13],东亚人群的遗传历史也得到了更为精细的解析。
随着技术的发展,大量基因组数据得以获得和积累,使得研究人员可以更加详尽地研究东亚人群的遗传结构和进化历史。2003年人类基因组计划(human genome project, HGP)首次完成了人类基因组全图的绘制,随后“国际人类基因组单体型图谱计划(international hapMap project)”和“人类基因组多样性计划(human genome diversity project, HGDP)”对人类全基因组结构进一步深入研究。2008年由中国华大基因、英国Sanger研究所及美国国立人类基因组研究所联合启动的“千人基因组计划(1000 genomes project, 1KG)”,更深层次地绘制出人类基因组多态性分布水平以及稀有突变,是大规模基因组测序时代的一个里程碑。这些公共数据集对全面深入了解东亚人群遗传结构提供了重要的数据支撑和参照[14]。此外,基于东亚人群全基因组SNP[15, 16]、全外显子组数据[17]以及重测序数据[18]等开展的研究,也取得了一些重要的进展。近年来,古DNA研究,包括现代人古DNA以及早期智人古DNA的测序,则为全面揭示东亚人群的遗传结构演变历史提供了新的线索。2017年中国科学院古脊椎动物与古人类研究所的付巧妹团队对北京房山出土的4万年前的田园洞人骨骼化石进行了全基因组测序[19]。这是东亚第一个古人类全基因组分析,也是整个东亚地区最古老的人类基因组,填补了东亚古DNA研究在空间和时间尺度上的空白。
1 本地起源与非洲起源
关于现代人群的起源,主要有两种对立的假说:“本地起源说(multiregional hypothesis)”与“非洲起源说(recent African origin model)”。这两种假说均认为,早期智人(early homo sapiens或archaic humans)和晚期智人(即现代人,homo sapiens)的共同祖先直立人(homo erectus)起源于非洲,并在200万年前走出非洲扩散到世界其他地区。不同之处在于,前者认为现代人源于本土的早期智人;而后者认为,现居世界各地的现代人均来自20万年前起源于非洲的晚期智人,约在10万年前走出非洲,进而扩散到达欧亚大陆。由于东亚出土了大量形态学上连续的古人类化石,因此考古学认为东亚人群是从本地的早期智人(如许昌人[20]、马鹿洞人[21]等,图1)演化而来,即“本地起源”[22]。近年来,在中国湖南省道县发现的极其古老的现代人化石,由于其年代(8~12万年前)比“非洲起源说”认为的现代人到达东亚的时间(5~6万年前)要早得多[23],因而被看作是支持“本地起源”的最有力的直接证据。然而,由于分子钟估算的走出非洲的时间本身还存在很大争议,例如利用较慢的分子钟推测的欧亚人与非洲人的分歧时间约为10万年左右[24],与该化石样本的时间极为相似。最近在以色列史前洞穴发现的智人化石(17.7~19.4万年),则将人类走出非洲的时间推前了至少约5.5万年[25]。而基于12万年前的尼安德特人(Neanderthal)化石样本mtDNA测序数据所推测的现代人走出非洲的时间更早,约为47万到22万年前[26]。因此,该化石所代表的古老群体也有可能在10万年前或更早的时间与现代欧亚人祖先一起走出非洲到达东亚。另外,如果该古老群体确实从东亚古人类演化而来,那么他们究竟是进一步演化成东亚的现代人群,还是被后来走出非洲的东亚人祖先完全替代,还需要分子遗传学的证据进一步核实[27]。

现代人祖先走出非洲的时间和路线分别在地图上用红色数字和线条标出,时间单位千年(Kya, kilo years ago)。地图上标注出了一些东亚人群常见mtDNA单倍型类群,与系统发育树色块相一致。代表性的现代人遗址和早期智人遗址在地图上分别用不同颜色和序号做了标记。
Fig. 1Out-of-Africa migration routes and mtDNA phylogenetic tree of East Asian populations
“非洲起源说”的证据则主要来自分子遗传学的研究。1987年,Cann等[1]过对全球范围内147例个体的mtDNA的RFLP进行分析,结果发现非洲以外的个体均属于非洲特有类群(L3)的衍生支系。东亚人群mtDNA及Y染色体的遗传变异研究,也进一步支持了东亚人群起源于非洲的观点。中国科学院昆明动物研究所孔庆鹏等[5, 11]先后系统地分析了数千个东亚个体的mtDNA基因组序列数据,结果揭示东亚所有已鉴定的母系世系均源于非洲(图1),未发现任何源自本地直立人的母系遗传贡献。在Y染色体研究方面,复旦大学金力教授团队也发现东亚现代人中普遍存在的3个变异位点(M89、M130和YAP)均源自非洲古老突变M168[7,8,9],与“非洲起源说”一致。利用全基因组重测序技术,随后对来自东亚的YH (汉族个体)、SJK(韩国人)等个体的研究,也进一步支持东亚人群起源于非洲[14]。
2 源自早期智人的遗传贡献
尽管东亚人群的主体遗传类型来自非洲,越来越多的全基因组证据表明,欧亚大陆上的早期智人可能对走出非洲的现代人有一定程度的遗传贡献[28,29,30]。2010年,Green等[28]对克罗地亚尼安德特人的骨遗骸样本进行了全基因组测序,结果发现,包括东亚人群在内的所有欧亚人群中,约有1%~4%的遗传组分与尼安德特人相似。进一步研究也提示东亚人群中确实存在与尼安德特人相似的遗传组分,并且这种组分在东亚人群(9.6%)中要高于欧洲人群(6.4%)[31]。另外,在亚洲东部的现代人群中还发现了与西伯利亚地区的古人类丹尼索瓦人(Denisova)相似的遗传组分[29, 30]。该遗传组分主要分布在大洋洲(约3%~6%)[30],随后也被证明在东亚人群中有少量分布(0.2%)[32]。对这种遗传共享现象,目前的解释主要有两种模型:一种认为现代人走出非洲后与当地的早期智人发生了遗传交流[29, 30],即“后期基因交流模型(archaic introgression model)”;另一种则认为,现代人与当地早期智人共享的遗传组分可能是他们的共同祖先就已存在遗传分化,由于同源关系导致部分现代人(如欧亚人群)保留了与早期智人相似的基因片段,即“早期非洲子群体模型(ancient population structure model)”[33]。由于共享的古老基因片段发生重组的时间存在差异,因此在后期基因交流模型下,共享的基因片段长度比早期非洲子群体模型下的要长[34]。而根据尼安德特人和现代人共享基因片段的长度,研究者推测二者发生基因交流的时间是4.7~6.5万年前[35],比早期智人与现代人发生分化的时间(27.5~38.3万年前)晚的多[36],从而支持“后期基因交流模型”。同样,丹尼索瓦人与大洋洲及东亚人群的遗传共享,也被证明是后期基因交流的结果[29, 30]。还有研究认为,藏族人群中的高原适应基因EPAS1也可能源于丹尼索瓦人[37],不过也有研究对该观点提出了质疑[38]。
3 从非洲到东亚的迁徙
3.1 迁徙路线
越来越多的遗传学研究表明,现代人在更新世晚期走出非洲并且快速扩散到欧亚大陆以及大洋洲等地区[1, 39~41]。进一步的研究表明现代人祖先通过一条“南部”迁徙路线从非洲撒哈拉以南沿海岸线扩散(图1),大约在5~6万年前到达东亚南部[42],并且该扩散是一个相当快速的过程[43, 44]。东亚人群祖先到达东亚后,开始了向东亚内陆的大规模迁徙,进而扩散到整个东亚地区。这些迁徙主要发生在末次盛冰期(last glacial maximum, LGM)[45]之后,可能是由于气候变暖所导致[7, 46]。冰期后的迁徙路线有多条,包括从中国南部向西延展到印度东北部和喜马拉雅以南地区的扩散[47],以及经河流从东南亚进入东亚地区的迁徙[48]。此外,Y染色体的研究还表明,在冰期之后,还有少部分现代东亚人群是来自中亚和西部欧亚的遗传输入(约7%)[49]。由此看来,最初走出非洲的现代人主要是沿海岸线迁徙,而随后(主要是冰期后)主要是沿内陆迁徙路线以及北方路线扩散进入东亚。
3.2 迁徙次数
关于人类走出非洲的次数,目前也存在很大争议,争议的焦点主要是东亚人群是否与澳洲人群来自同一次扩散。早期基于mtDNA的研究认为,澳洲及欧亚人群中的3个超类群(M、N和R)的溯祖时间很相似,由此推测这些地区的人群可能来自走出非洲的同一次迁徙[43, 50]。而全基因组的研究则得出了不同的结论。通过对澳洲土著人的全基因组研究发现,澳洲土著人群和欧亚人群是分别是来自7.5~6.2万年前以及3.8~2.5万年前的不同迁徙事件[51]。这一观点得到了来自丹尼索瓦人基因组研究的支持。由于丹尼索瓦人的遗传组分主要分布于大洋洲等地区,因此Reich等[30]提出,现代人走出非洲可能有两次:第一次走出的人群即大洋洲人群的祖先,可能与丹尼索瓦人发生了基因交流;而第二次走出的人群主要演化成了现代的欧亚人群。值得注意的是,与欧亚人群类似,该澳洲土著人也携带有尼安德特人的遗传组分,这其实是与单扩散模型更加吻合的[31]。因此,在多扩散模型下,对该现象的可能的解释有两种:一种是人类走出非洲确有两次,而两次不同时间的扩散均与尼安德特人发生了基因交流;第二种是现代人与尼安德特人的基因交流可能早在10万年前就已发生,之后这部分现代人又返回非洲[52],继而分别在7万年前以及3万年前发生两次不同的扩散。到目前为止,这两种解释还都存在一定的不确定性,因此东亚人群与澳洲人是否来自不同的迁徙事件,业界仍然没有定论。而该问题的解决,很大程度上依赖于更多全基因组数据的深入研究,以及更精确的时间估算。
4 东亚人群的遗传分布格局与民族形成机制
东亚人群经历了复杂的历史过程和文化演变,形成了现今语言、文化多样的民族群体。那么,在这些多样的民族形成过程中,哪些因素起着重要作用?民族的形成是否仅仅是文化扩散的产物?不同族源历史的民族之间是否存在遗传分化和遗传交流?遗传学的研究为这些问题的解答提供了重要的思路和线索。4.1 早期定居与民族遗传背景
4.2 文化扩散与人口扩散
同一个民族往往有着相同的文化,而民族的形成究竟是文化同化的产物,还是由人群的迁徙所主导?基于东南亚壮侗语系(Tai-Kadai)人群的mtDNA数据,Kutannan等[56]比较了人口扩散(demic diffusion model)、文化扩散(culture diffusion model)以及混合模型(admixture model)。结果表明,该语系从中国扩散至东南亚地区遵循人口扩散模式。也就是说,来自中国南方的人群迁徙在东南亚壮侗语系民族的形成中起着十分重要的作用[56]。相比之下,汉族的形成则比较复杂。来自mtDNA以及全基因组的证据均表明汉族存在着明显的南北分化[3, 57, 58],而这一分化提示了汉族的形成在很大程度上是对南方土著人群的文化征服和同化[3],即文化扩散模式。而基于Y染色体的研究,文波等[59]进一步发现汉族Y染色体的南北分化并不显著,因此推测汉文化向南扩散其实是伴随着大规模人口迁徙的,只不过这一过程是由男性所主导。因此,汉文化的扩张模式存在明显的性别差异,这也提示了文化扩散和人口扩散的相互作用可能在汉族的形成中发挥了重要作用。
4.3 族源历史与遗传分化
在中国少数民族古老的历史记载中,有着氐羌、九黎、三苗、百越等古老的部落。百越部落是古代北方中原诸国对南方楚越地区众多古老部落的泛称,其中“百”是多数的意思。早在2000~3000年前,百越部落广泛分布在中国东南沿海一带,现今主要分布在广西的壮族、贵州的水族以及云南的傣族等都可追溯到古老的百越部落[62]。氐羌部落发源于甘肃、宁夏和青海等地,在4000~5000年前就陆续地向中国西南地区迁徙,并与当地的土著人群发生融合,如今分布在云南地区的彝族、傈僳族、白族、纳西族和拉祜族等民族都是这些古老氐羌部落的后代[62]。族源历史和语言也呈现对应关系,例如百越、九黎、氐羌、百濮等族源的人群,分属于壮侗语系、苗瑶语系、藏缅语族和南亚语系等。那么这些不同族源历史的少数民族在遗传结构上是否也有相应的差异?文化上的差异性和相似性是否留下了遗传上的印记?研究人员对氐羌、百越以及九黎部落等族源的民族开展了mtDNA和Y染色体的遗传结构分析,不同的研究均表明,族源不同的群体间存在遗传差异,族源印记或多或少在群体遗传结构上得到了保留[63, 64]。例如,氐羌部落民族有着更多的源自中国北方的遗传组分,与他们源自中国北方的历史记载吻合[63]。百越民族人群保留了较多的南方土著组分,他们的群体扩张时间也相对的更为古老[63]。苗瑶语系人群的母系遗传组分更可能来自南方;苗族与东亚北方的群体有着更多的遗传交流,这与历史记录相符[64]。同样,中国东北部少数民族(达斡尔族、鄂温克族、朝鲜族、蒙古族和鄂伦春族)的mtDNA主要单倍型类群都是北方群体常见类群D、G、C和Z等,与他们北方起源的历史记载一致[65]。随后基于全基因组SNP分型数据的研究,也表明东亚人群的遗传结构与语言结构,而非地理位置,有很好的对应,表明不同族源的人群在遗传结构上确实存在一定的分化[15]。
5 结语与展望
作为考古学与遗传学学科交叉产生的古DNA研究已成为追溯人类历史的一个重要手段。在现代人群遗传结构的研究基础上,对古人遗骸进行DNA的研究分析,为不同地区、不同时间的古代人群的遗传多样度和演化进程提供了更为直接的证据支持。将考古文化与古DNA测序,与现代人的遗传结构相结合,将会描绘出东亚波澜壮阔的人类演化历史。欧美地区的古DNA遗传学研究日臻成熟,目前已经有众多突破性研究成果[67,68,69,70]。然而,在东亚地区,关于古代DNA的研究仍十分有限[19, 71],我们还有很长一段路要走。随着东亚地区古DNA研究的逐步开展,相信东亚人群的起源演化研究将会取得更多令人瞩目的研究成果。
Abstract We present the high-quality genome sequence of a 09080445,000-year-old modern human male from Siberia. This individual derives from a population that lived before-or simultaneously with-the separation of the populations in western and eastern Eurasia and carries a similar amount of Neanderthal ancestry as present-day Eurasians. However, the genomic segments of Neanderthal ancestry are substantially longer than those observed in present-day individuals, indicating that Neanderthal gene flow into the ancestors of this individual occurred 7,000-13,000 years before he lived. We estimate an autosomal mutation rate of 0.400020103000210(-9) to 0.600020103000210(-9) per site per year, a Y chromosomal mutation rate of 0.700020103000210(-9) to 0.900020103000210(-9) per site per year based on the additional substitutions that have occurred in present-day non-Africans compared to this genome, and a mitochondrial mutation rate of 1.800020103000210(-8) to 3.200020103000210(-8) per site per year based on the age of the bone.