删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

Whole Genome Analyses of Chinese Population and De Novo Assembly of A Northern Han Genome

本站小编 Free考研考试/2022-01-03

To unravel the genetic mechanisms of disease and physiological traits, it requires comprehensive sequencing analysis of large sample size in Chinese populations. Here, we report the primary results of the Chinese Academy of Sciences Precision Medicine Initiative (CASPMI) project launched by the Chinese Academy of Sciences, including the de novo assembly of a northern Han reference genome (NH1.0) and whole genome analyses of 597 healthy people coming from most areas in China. Given the two existing reference genomes for Han Chinese (YH and HX1) were both from the south, we constructed NH1.0, a new reference genome from a northern individual, by combining the sequencing strategies of PacBio, 10× Genomics, and Bionano mapping. Using this integrated approach, we obtained an N50 scaffold size of 46.63?Mb for the NH1.0 genome and performed a comparative genome analysis of NH1.0 with YH and HX1. In order to generate a genomic variation map of Chinese populations, we performed the whole-genome sequencing of 597 participants and identified 24.85 million (M) single nucleotide variants (SNVs), 3.85?M small indels, and 106,382 structural variations. In the association analysis with collected phenotypes, we found that the T allele of rs1549293 in KAT8 significantly correlated with the waist circumference in northern Han males. Moreover, significant genetic diversity in MTHFR, TCN2, FADS1, and FADS2, which associate with circulating folate, vitamin B12, or lipid metabolism, was observed between northerners and southerners. Especially, for the homocysteine-increasing allele of rs1801133 (MTHFR 677T), we hypothesize that there exists a “comfort” zone for a high frequency of 677T between latitudes of 35–45 degree North. Taken together, our results provide a high-quality northern Han reference genome and novel population-specific data sets of genetic variants for use in the personalized and precision medicine.
从1990年正式启动并于2003年宣布完成的人类基因组计划,与曼哈顿原子弹计划和阿波罗登月计划并称为三大科学计划,是人类科学史上的一个具有划时代意义的伟大工程。其宗旨在于测定人类染色体的30亿个碱基对的DNA序列,绘制人类基因组图谱,破译人类遗传信息。人类基因组计划获得了第一套染色体水平的参考基因组,在基因组学和生物信息学等领域中发挥着举足轻重的作用,经过多年的修补完善,至今已更新到GRCh38版本。但由于该参考基因组基于高加索人的遗传背景,对于分析其他人群的遗传数据可能产生一定程度的偏差。为了更好地理解不同种族人群的疾病遗传基础及促进个体化精准医疗的发展,世界各国开始建立针对本国人群的人类参考基因组,例如2016年发布的韩国人参考基因组AK1。近年来中国人群的两个参考基因组YH2.0和HX1也相继发布,但两者均基于中国南方汉族个体,并且相比国际人类参照基因组在序列完整性上还存在很大差距。基于DNA标记和单核苷酸多态性(SNP)阵列分析的研究表明,中国南北方人群早在史前农业文明时期就开始经历显著的遗传分化。考虑到中国南北方人群的遗传多样性以及进一步提高中国人参照基因组的完整性,从头建立一套中国北方人群的参考基因组将很大程度造福于今后的大规模人群队列研究。另一方面,为了揭示疾病及生理表型的遗传机制需要建立大规模人群队列,开展基于高通量测序的全基因组遗传变异分析。随着二代、三代测序技术的快速发展,测序通量飞速提高,测序成本的大幅降低,为开展大规模人群队列研究提供了一个前所未有的契机。从最初的国际人类基因组单体型图计划(HapMap)和千人基因组计划(1KGP)开始,世界各国先后开展了大规模人群队列的基因组研究,例如英国的万人(UK10K)和十万人基因组计划、美国万人基因组计划、日本千人基因组计划(1KJPN)等。作为拥有世界1/5人口的大国,我国目前尚缺乏基于大规模人群、高深度全基因组测序的队列研究。面向我国发展精准医学研究的重大需求,2016年中国科学院北京基因组研究所牵头启动了中科院精准医学研究计划(CASPMI),目标是建立一个高质量、大规模的中国职业人群前瞻性队列,开展全基因组遗传变异分析、疾病及重要表型的关联分析,构建中国人群遗传变异图谱,形成中国人基因组变异数据库体系和精准医学知识库;以此为基础构建标准化的电子健康档案和报告系统,实现对于中国人群重要慢病的风险预测预警,最终建立一套的精准医学研究范式体系。本文主要报道了CASPMI项目一期的主要研究成果,主要包括中国北方汉族参考基因组组装和中国人群遗传变异图谱的绘制,并分析了中国人群特异的遗传变异位点、南北方人群的遗传差异以及全基因组大片段结构变异。





PDF全文下载地址:

http://gpb.big.ac.cn/articles/download/706
相关话题/gen