删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

徐涛/何顺民团队发布"女娲"基因组资源,提供中国人群遗传变异图谱和参考面板

本站小编 Free考研考试/2022-01-02

遗传变异图谱是研究人群演化史、医学遗传学、基因型-表型关联的基础。此前,大多数全基因组测序相关研究主要集中在欧洲血统人群。已有研究表明,罕见和低频的变异往往是特定于人群或样本的,尤其是许多与疾病相关的变异。针对特定人群的基因组数据可以为全基因组关联研究、区域适应性研究、用药指导等提供更准确的参考。
  单倍型参考面板可基于大型人群队列中已知的单倍型信息,对来源于相对稀疏的基因变异芯片或低覆盖率测序的样本中缺失的基因型进行推演,是促进全基因组关联研究 (genome-wide association study, GWAS) 的有意义且具有成本效益的方法。此前缺乏中国人群特异的参考面板,其他参考面板对中国人群特异的变异推演效果较差,从而导致GWAS中遗漏潜在的表型相关变异。
  中国人群全基因组测序资源和单倍型参考面板的缺乏极大地阻碍了世界上最大人群的遗传学与精准医学研究。为此,中国科学院生物物理研究所徐涛院士团队和何顺民研究员团队合作在国际学术期刊《Cell Reports》在线发表了题为"NyuWa Genome Resource: A Deep Whole Genome Sequencing-Based Variation Profile and Reference Panel for the Chinese Population"的文章(图1),介绍该团队关于"女娲"(NyuWa)中国人群基因组资源库(http://bigdata.ibp.ac.cn/NyuWa/)的工作,提供针对中国人群的遗传变异图谱与参考面板基因型推演服务,旨在促进中国人群的遗传学与医学研究。

图1. 文章发表于Cell Reports
  研究团队分析了 2,999 个中国人的全基因组深度测序数据(26.2X),并以中国神话中创造人类的女娲命名。基于NyuWa数据资源,构建了包含7106万SNPs 和819万 InDels的中国人群遗传变异图谱(图2),并对其进行全面注释。相比其它人群队列,NyuWa数据集包含2501万新的变异,其中包括14.9万非同义变异、10.1万有害变异、11493个编码和非编码基因的功能丧失变异、636个癌症相关基因的蛋白截短变异。大量的新变异表明,在以往的遗传研究中,中国人群的变异代表性不足,NyuWa基因组资源则填补了这一空缺。

图2. NyuWa全基因组测序资源的变异数量。
  此外根据临床相关数据库的注释,在NyuWa中发现了1,140个致病变异,以及药物基因组学相关位点(图3A)和癌症风险位点(图3B)上中国人群与世界其他人群的变异频率差异。这些发现有助于中国人群精准医学研究,可能促进新的遗传学和医学进展。

图3. NyuWa中的药物基因组学位点(A)与癌症风险基因座(B)变异。
  汉族人口是东亚乃至全世界最大的民族,约占全球人口的 20%,为汉族人群构建一个完整的、大队列的、高质量的参考面板,对汉族的遗传学与医学研究具有重要参考价值。基于NyuWa数据资源,研究团队构建了包含 5804 个单倍型和 1926万 变异的单倍型参考面板,其中325万变异未包含在其它参考面板中,这些 NyuWa 参考面板特有的变异可能会在未来的关联研究中带来新的发现。这是第一个数千人级别公开可用的中国人群特异的单倍型参考面板。
  为了评估NyuWa参考面板的基因型推演性能,研究团队使用来自人类基因组多样性计划(the Human Genome Diversity Project, HGDP)的亚洲各个人群芯片基因分型数据和高覆盖率 WGS 数据作为测试数据集。与其他参考面板相比,NyuWa 参考面板将汉族人群基因型推演的错误率降低了 30%-51%,在大多数其他东亚和东北亚人群中也有优异的表现(图4A-D)。研究团队进一步比较了不同等位基因频率的推算结果和实际基因型之间的相关性,NyuWa参考面板的性能在汉族的所有等位基因频率区间中均具有绝对优势(图4E)。此外,NyuWa参考面板与千人基因组(1KGP3)面板的结合进一步提高了亚洲人群的基因型推演效果。

图4. NyuWa参考面板对汉族基因型推演具有最佳性能。
  考虑到南北方汉族遗传差异的存在,研究团队将 NyuWa 参考面板中的样本分为北方和南方子集,使用子集样本分别构建北方和南方汉族的参考面板,通过基因型推演的模拟测试,证明以NyuWa的人群规模,一个南北整合的参考面板对中国北方人和南方人都适用(图5)。

图5. 南北方汉族测试数据集的基因型推演错误率。
  综上,基于中国人群的大型队列深度 WGS 数据,研究团队构建了中国人群的遗传变异图谱和首个数千人级别公开可用的中国人群单倍型参考面板,将所有结果整合为中国人群基因组资源库NyuWa(图6),旨在促进中国和亚洲人群的遗传学和精准医学研究。

图6. NyuWa资源库。
  当前有关医学基因组学的知识和指南主要来自以欧洲人群为主的遗传和基因组资源,可能会遗漏有关非欧洲人群的遗传信息。亚洲人群起源、迁徙和融合历史悠久而复杂,使得其遗传多样性研究充满了挑战和机遇。作为世界上人口最多的国家,针对中国人群的全基因组测序工作,对于扩充世界人群遗传资源多样性、提高中国人群医学研究准确性非常必要,有助于深入了解亚洲人群结构与人群历史,并对寻找复杂疾病遗传因素的研究设计以及人口健康指导具有重要参考价值。
  中国科学院生物物理研究所的何顺民研究员、徐涛院士为该文共同通讯作者,中国科学院生物物理研究所的副研究员张鹏博士、副研究员罗华夏博士、特别研究助理李燕燕博士、副研究员王友博士、博士研究生王佳佳、博士研究生郑宇为该文并列第一作者。本研究得到了中国科学院战略性先导科技专项、 国家自然科学基金、国家重点研发计划、中国科学院信息化专项、国家基因组科学数据中心的支持。
  文章链接:https://www.sciencedirect.com/science/article/pii/S2211124721014996
  参考资料:
  Zhang et al., NyuWa Genome resource: A deep whole-genome sequencing-based variation profile and reference panel for the Chinese population, Cell Reports (2021), https://doi.org/10.1016/j.celrep.2021.110017
(供稿:何顺民研究组)


附件下载:

相关话题/遗传 资源 数据 遗传学 中国科学院

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 中国科学院生物物理研究所王江云研究团队和合作者在G蛋白偶联受体磷酸化编码机制研究中取得新进展
    4月22日,中科院生物物理研究所王江云课题组和山东大学基础医学院于晓教授团队、孙金鹏教授团队和北京大学金长文教授团队通力合作,在Nature Communications在线发表了题为"Structural studies of phosphorylation-dependent interacti ...
    本站小编 Free考研考试 2022-01-02
  • 李国红/朱明昭课题组成果"揭示人类遗传物质传递的关键步骤"荣获2020年度中国科学十大进展
    2021年2月27日,科技部基础研究管理中心公布了"2020年度中国科学十大进展",我所李国红研究组和朱明昭研究组合作完成的"揭示人类遗传物质传递的关键步骤"这一研究成果成功入选。  DNA复制是人类遗传物质在细胞之间得以精确传递的基础。在细胞增殖过程中,通过DNA复制,一套亲本遗传物质将产生两套完 ...
    本站小编 Free考研考试 2022-01-02
  • 面向垂直领域的阅读理解数据增强方法
    摘要阅读理解问答系统是利用语义理解等自然语言处理技术,根据输入问题,对非结构化文档数据进行分析,生成一个答案,具有很高的研究和应用价值。在垂直领域应用过程中,阅读理解问答数据标注成本高且用户问题表达复杂多样,使得阅读理解问答系统准确率低、鲁棒性差。针对这一问题,该文提出一种面向垂直领域的阅读理解问答 ...
    本站小编 Free考研考试 2022-01-02
  • 基于数据增强的高考阅读理解自动答题研究
    摘要机器阅读理解是自然语言处理领域中的一项重要研究任务,高考阅读理解自动答题是近年来阅读理解任务中的又一挑战。目前高考语文阅读理解任务中真题和模拟题的数量相对较少,基于深度学习的方法受到实验数据规模较小的限制,所得的实验结果相比传统方法无明显优势。基于此,该文探索了面向高考语文阅读理解的数据增强方法 ...
    本站小编 Free考研考试 2022-01-02
  • 多目标情感分类中文数据集构建及分析研究
    摘要目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中,多个目标情感倾向分布并不均衡,多个目标情感一致的句子占较大比例。数据集本身 ...
    本站小编 Free考研考试 2022-01-02
  • 基于部分标签数据和经验分布的命名实体识别
    摘要近年来,基于数据驱动的命名实体识别方法在新闻、生物医疗等领域上取得了很大的成功,然而许多领域缺少标签,且人工标注成本高昂。为了降低标注成本,该文尝试使用含有噪声的部分标签数据进行命名实体识别,提出了一种基于部分标签数据和经验分布的方法。首先介绍基于部分标签数据的建模方法,然后引入标签经验分布的假 ...
    本站小编 Free考研考试 2022-01-02
  • 一个面向中文古诗词理解难易度的人工标注数据集
    摘要向读者推荐阅读难度合适的古诗词有助于提升读者的诗词鉴赏能力。现阶段,围绕古诗词可读性自动化分析的相关研究的突出局限之一是缺乏大规模高质量的数据集。针对该问题,该文研究面向古诗词可读性自动化分析的数据集构建。该文作者对外开放了包含1915篇古诗词的标注阅读理解难度的数据集①。该文首先将数据集划分成 ...
    本站小编 Free考研考试 2022-01-02
  • 面向临床科研的医疗事件模型与开放数据集合构建
    摘要基于电子病历观察性数据的真实世界研究成为目前临床科研的热点。然而关系数据模型无法直接支撑起科研应用中医疗事件的时序关系表示以及知识融合的查询需求。针对上述问题,该文提出了一种新的基于RDF的医疗观察性数据表示模型,该模型可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。对来源于 ...
    本站小编 Free考研考试 2022-01-02
  • 基于地理空间数据的知识图谱构建技术研究
    摘要随着3S技术迅猛发展,地理空间数据呈现出爆发式增长趋势,基于地理空间数据构建知识图谱,实现数据到空间知识的转换成为亟待解决的科学问题。针对通用知识图谱仅以属性和语义关系表示空间知识,以及空间关系相对缺失等问题,该文首先描述了空间关系的表示方法;其次,提出了基于空间关系的知识图谱构建技术流程,重点 ...
    本站小编 Free考研考试 2022-01-02
  • 基于粗糙数据推理的TextRank关键词提取算法
    摘要基于图模型的TextRank算法是一种有效的关键词提取算法,在提取关键词时可取得较高准确度。但该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大随意性与不确定性。针对这一问题,该文提出了一种基于粗糙数据推理理论的改进TextRank关键词提取算法,粗糙数据推理可扩 ...
    本站小编 Free考研考试 2022-01-02