Database resources of the reference genome and genetic variation maps for the Chinese population
自1990年10月1日启动“人类基因组计划”,到2003年4月15日,国际人类基因组组织正式宣布全部完成,历时10多年的国际人类基因组计划绘制了物理、遗传、序列和基因4张图谱[1, 2],开启了人类对自身(包括癌症在内的人类疾病的发生)的深入认识和研究,推动了测序技术、基因组学和生物信息学等的发展,并相继启动了国际单倍体型计划(HapMap计划)[3, 4]、“国际千人基因组计划”[5]、“肿瘤基因组解剖计划”[6,7,8]和“环境基因组学计划”[9]等一系列与健康相关的研究计划。其中,2008年1月22日启动的“国际千人基因组计划”[5]是举世闻名的人类基因组计划的延续和发展,该计划于2012年3月29日完成,是基因组科学研究向临床医学迈进的重要转折点,不仅绘制了迄今为止最详尽的、最有医学应用价值的人类基因组遗传多态性图谱,还贡献了海量的源于不同国家和不同人群的、包含着大量遗传变异信息的个人基因组数据[10, 11]。该计划产生的392个中国人(283个汉族和109个少数民族)样本的全基因组测序数据,为中国人群特异性的遗传特征和相关医学分析研究提供了宝贵的数据资源。科学家们通过分析,发现不同人种之间的基因组单核苷酸多态性位点及频率存在明显的差异,因此许多国家纷纷启动了面向本国或本地区的基因组测序计划,目标是建立更加精细的参考基因组及变异组。例如,英国于2010年和2012年分别启动了英国万人基因组计划和10万人基因组计划[12, 13],旨在通过大规模的基因组测序寻找英国人群特有的基因组变异,挖掘与健康和疾病相关联的遗传风险因素。2016年,日本人参考基因组计划(Japanese Reference Genome)通过新一代DNA测序技术构建了日本人参考基因组序列[14]。此外,澳大利亚、冰岛、加拿大、新加坡、韩国、荷兰、丹麦、沙特阿拉伯等国家和地区都纷纷启动了相应的基因组计划。中国人要有自己的基因组数据和参考基因组序列,才能解决中国人特有的疾病遗传问题。2007年10月,第一个黄种人个人基因序列“炎黄一号”完成[15],是首例基于二代测序技术完成的参考基因组序列。2016年6月,中国人个体基因组“华夏一号”公布,该个体基因组采用三代单分子测序和二代测序技术相结合,大幅度提高了基因组组装的完整性和准确性[16]。
基因组数据的测定为鉴定和研究遗传变异及多态特点提供了基础。国际人类基因组单体型图谱计划(HapMap计划)测定了全球11个人群,获得约500万单核苷酸多态性位点(single nucleotide polymerphisms, SNPs)。国际千人基因组计划对全球不同人类种群的2500人进行了全基因组测序,获得了8470万SNPs、360万序列插入删除(insertion or deletion)和6万结构变异。20世纪90年代以来,我国也先后启动和实施了“中华民族基因组SNP研究”、“中华民族基因组中若干位点基因结构的研究”和“中国人群若干群体的基因组多态性研究”等重大项目。这些项目的开展都为创建我国人群遗传资源库打下了重要的基础,如:通过对20 635例中国人群样本的主要组织相容性复合体(major histocompatibility complex, MHC)目标区域进行高深度测序和分析,建立了世界上最大样本量的中国人群MHC全区域完整遗传变异数据库[17],展示了中国人群MHC区域突变位点和HLA基因的多态性图谱,为开展中国人群复杂疾病与MHC区域的相关性研究奠定了坚实的基础。
尽管在人类(尤其是中国人)基因组的解析和发展中取得了长足的进步,但在基因组学研究中广泛用于序列比对分析的人类基因组参考序列,仅是基于有限的人类个体全基因组测序后的结果,这个不包含任何遗传变异信息的静态基因组显然不足以支持高度复杂的基因组学、转录组学、表观基因组学以及全基因组关联分析等研究;此外,目前国际上公开的人类基因组变异数据也主要来源于西方白种人,利用这些变异数据作为参比数据,常造成我国基因组研究和临床应用结果的不准确。面向未来中国精准医学研究的新需求,中科院北京基因组研究所发展并建立了基于中国人群全基因组测序数据的虚拟中国人基因组数据库(Virtual Chinese Genome Data Base, VCGDB)[18, 19]和基因组变异数据库(Genome Variation Map, GVM)[20]资源(图1),有效并全面展示了中国人群的遗传变异特征,更好服务于中国的人类遗传学、基因组学和生物医学的研究和应用。

Fig. 1Schematic for Chinese reference genome and variome databases and their main characteristics
1 虚拟中国人基因组数据库
国际千人基因组计划提供了丰富的全基因组测序数据资源,其中包含中国南方汉族人群数据(Southern Han Chinese, CHS)、北方汉族人群数据(Han Chinese in Beijing, CHB)以及中国西双版纳傣族的中国人基因组数据(Dai Chinese in Xishuangbanna, CDX)。为了充分利用这些信息,选取该计划中包含中国南方人群和北方人群数据共计194个高覆盖度个体的全基因组序列数据,通过标准化数据分析和处理流程[18],构建了虚拟中国人基因组数据库(VCGDB, http://bigd.big.ac.cn/vcg/) (图2)。VCGDB提供了中国人群基因组多态性信息,共包括3500万个单核苷酸变异位点信息(SNPs)、50万个基因组插入删除片段信息、2900万个罕见变异位点信息,及其对应的基因组注释信息[18]。同时VCGDB还分别提供了中国人群体、南方人群体和北方人群体的一致性基因组参考序列。此外,通过真实的基因组测序数据序列比对分析,将其与已有的人类基因组参考序列以及“炎黄一号”进行比较,表明基于中国人群体高频遗传变异位点构建的中国人基因组一致性参考序列更能体现中国人群体的基因组特征。图2

Fig. 2A screen shot of the home page of VCGDB
虚拟中国人基因组数据库具有以下特点:(1) VCGDB是一个“动态”的数据库,通过信息熵等方法来计算中国人群体之间各个位点遗传变异的动态变化水平和发生率,能够展示基因组中不同位点的遗传变异多态性信息和各位点不同基因型的发生频率信息;(2) VCGDB是一个“虚拟”的数据库,通过整合中国人群体高频遗传变异位点信息,以标准参考基因组为参照,分别构建了中国人群体、南方人群体和北方人群体的一致性基因组参考序列。构建的一致性基因组参考序列并不属于和代表任何一个真实存在的个体,而是源于对200多个个体TB级大规模数据进行综合分析的结果,也因此可以更好地描述中国人群体的遗传变异特征;(3) VCGDB提供高度交互的、友善的、融合多种全新功能的中国人动态基因组浏览器(VCGBrowser),相较于传统的基因组浏览器如UCSC Genome Browser和JBrowse Genome Browser并不能显示群体的基因组动态信息,VCGBrowser可根据用户的不同需求,从染色体、固定片段、指定基因和指定位点等多层次展示所有位点在不同群体的位点动态信息以及相关的基因组注释信息。总体上,虚拟中国人基因组数据库实现了对国际千人基因组计划中中国人群基因组测序数据的精细整合分析,并提供了中国人群体基因组变异的动态信息,为今后开展大规模人群基因组测序数据的分析和展示提供了参照[18]。
2 中国人群基因组变异数据库
虚拟中国人基因组数据库的建设为中国人基因组数据比对分析提供了较为精准的参考基因组,为进一步满足基于变异位点基因型和表型的关联分析及知识发现的研究需求,在VCGDB的基础上又发展和构建了中国人群基因组变异数据库(Genome Variation Map, GVM)(http://bigd.big.ac.cn/gvm, 图3)[20]。利用国际千人基因组计划中的215个(测序覆盖度>5)全基因组序列数据,采用统一的变异位点鉴定和注释分析流程[20],提供了截至日前最全的中国人群变异位点、人群频率和位点知识的注释信息,共包括13327822个单核苷酸变异位点信息(SNPs)、3 019 815个基因组插入删除片段信息、16 739 583个低发生概率(minor allele frequency, MAF <0.05)的变异位点信息,5 343 882个罕见发生概率(MAF <0.005)的变异位点信息,以及与这些位点和序列片段相关的基因组注释信息,包括位点突变效应、临床表型效应、人类孟德尔遗传疾病效应等。图3

Fig. 3A screen shot of the home page of GVM
3 未来展望
