人类基因组中97%的区域虽不编码蛋白,但仍具有不可忽视的功能,已知超过90%与疾病和性状关联的变异均位于非编码区。然而,相关变异的生物学功能与机制仍有待进一步探索。
近日,北京大学生物医学前沿创新中心(BIOPIC)、北京未来基因诊断高精尖创新中心(ICG)、北京大学生命科学学院生物信息中心(CBI)、蛋白质与植物基因研究国家重点实验室高歌课题组,通过对多个大规模实验验证表达调控变异实验产生数据的收集和整合构建了人类高质量表达调控相关非编码变异数据库REVA,并进一步评估了7个主流的非编码变异预测工具性能。论文以REVA as A Well-curated Database for Human Expression-modulating Variants为题在线发表于Genomics, Proteomics & Bioinformatics杂志。
作者通过对已发表文献的系统挖掘整合,提取并收录了来自18个细胞系的超过1180万个经实验验证的调控相关非编码变异,较之前发表的同类数据集增加数据量逾百倍。为理解这些非编码变异的功能与机制,作者进一步发展了基于卷积神经网络(Convolutional Neural Network, CNN)的注释方法,对全部收录变异在转录因子结合强度(binding affinity)、表观修饰模式、甲基化程度等多方面的影响进行了量化注释,构建了迄今为止最全面的人类表达调控相关非编码变异数据库REVA。在此基础上,作者进一步基于高质量变异数据集评估了7个主流的非编码变异预测工具,发现相应工具的灵敏度(sensitivity)仍有待提升,在大规模分析中现有工具造成的假阴性是亟待注意的问题。值得注意的是,作者发现参与评估的工具在不同类别(细胞系/位点保守性/性状相关/疾病功能相关)的变异上都会有表现上的差异,相关现象一方面反映了非编码变异影响表达调控的复杂性,同时也提示了相应计算方法进一步改进的方向。
图一:REVA数据库结构概览和工具评估部分结果。A.REVA数据库整体结构的概览。B.不同工具在评估数据集上的表现。C.不同工具在来自不同细胞系的变异上的表现。图中“All”代表不分细胞系的结果。
目前,REVA数据库已通过网络正式发布(http://reva.gao-lab.org,REVA数据库将持续保持更新,有相关问题可及时邮件联系reva@mail.cbi.pku.edu.cn)。用户可以通过输入染色体位置、rs id、基因名、ensembl gene id或者疾病名对变异进行快速搜索,也可以通过高级搜索页面进行自定义搜索和批量搜索。用户可以通过在线平台获取变异的基本信息、细胞系和表达信息、三维基因组信息、染色质状态、相关疾病和性状、实验相关信息和功能注释信息等,也可以下载变异的功能注释做进一步的个性化分析。同时用户也可以在线查看对现有预测工具的评估结果。
北京大学生命科学学院博士生王宇和史方圆为该论文的共同第一作者,高歌研究员为通讯作者,南昌大学生命科学学院硕士梁钰在数据收集上提供了大力支持。本研究工作得到了北京未来基因诊断高精尖创新中心、国家重点研发计划“精准医学专项”的支持,计算分析工作于北京大学高性能计算校级公共平台和北京大学太平洋高性能计算平台完成。
原文链接:
https://www.sciencedirect.com/science/article/pii/S167202292100142X
杂志社要文译荐(中文):
https://mp.weixin.qq.com/s/d6NVNyvQekkmoUOXHAsQ1A
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
高歌课题组在人类调控相关非编码变异整合解析方面取得进展
本站小编 Free考研考试/2021-12-20
相关话题/数据库 数据 北京大学 基因 疾病
北京大学焦宁研究团队在Nature发文报道芳烃衍生物断裂转化新突破
7月19日,北京大学药学院、天然药物及仿生药物国家重点实验室焦宁研究团队在《自然(Nature)》在线发表题为“芳环断裂制备烯基腈”的最新研究论文,报道了关于芳环选择性催化断裂转化的突破性研究成果。论文截图通过仿生设计,该团队提出级联活化的策略,首次解决了惰性芳香化合物选择性催化开环转化的重大科学难 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20北京大学高歌课题组开发出基于自适应卷积核的新卷积学习方法
深度学习是机器学习的一种,通常指基于表示学习的深度神经网络,如基于卷积神经层构建的卷积神经网络、基于递归神经层构建的递归神经网络等。它适合用来发现海量高维数据背后的复杂模式。近十年来,随着计算机算力的大幅提升,深度学习在图像识别、自然语言处理等领域取得了众多成果,其中可以捕捉数据局部特征的卷积神经网 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20汤富酬课题组开发出单细胞基因组单分子测序新方法
单细胞全基因组测序技术(scWGS)可以有效揭示生物样品中不同细胞之间的异质性,并系统鉴定单个细胞的基因组中发生的遗传变化,例如拷贝数变异(CNV)和点突变(单核苷酸变异,SNV)等。过去十年,研究人员已经开发出多种单细胞基因组扩增技术,例如简并寡核苷酸引物PCR扩增技术(DOP-PCR)、多重置换 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20北京大学黄晓军团队揭示移植后血小板延迟植入的新机制
2021年6月18日,国家血液系统疾病临床医学研究中心、北京大学人民医院、北京大学血液病研究所黄晓军教授及孔圆研究员共同通讯在SignalTransductionandTargetedTherapy(IF=13.493)在线发表了题为“M2macrophages,butnotM1macrophage ...北京大学通知公告 本站小编 Free考研考试 2021-12-20生命学院吴虹课题组与合作者揭示T细胞急性淋巴细胞白血病高危致病基因HOXA13激活的三维基因组调控机制
T细胞急性淋巴细胞白血病(T-LineageAcuteLymphoblasticLeukemia,T-ALL)是血液系统常见的恶性肿瘤。虽然联合化疗大大改变了T-ALL的疗效,但仍有20%的儿童和50%的成人T-ALL患者死于这种疾病。近期对T-ALL队列的外显子组及转录组测序鉴定出一系列T-ALL ...北京大学通知公告 本站小编 Free考研考试 2021-12-20北京大学魏文胜课题组在Nature Biotechnology 发文报道基于碱基编辑的新型高通量功能性筛选方法
2021年6月21日,北京大学生物医学前沿创新中心、北京未来基因诊断高精尖创新中心魏文胜课题组在NatureBiotechnology在线发表题为“Genome-wideinterrogationofgenefunctionsthroughbaseeditorscreensempoweredbyba ...北京大学通知公告 本站小编 Free考研考试 2021-12-20分子所李川昀课题组发布恒河猴参考基因结构 揭示人类转录本演化新机制
作为人类近缘的非人灵长类模式动物,恒河猴在脑科学、分子演化、药物研发等基础与转化研究中发挥着不可替代的作用。然而,目前恒河猴基因结构主要源于预测,严重制约了该特色模型在分子水平的研究与应用。近日,北京大学分子医学研究所李川昀教授课题组运用全长转录本测序技术,开发了生物信息学新方法,重新准确定义了恒河 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20北京大学国际关系学院教授王栋在Foreign Affairs发表文章
2021年4月15日,北京大学国际关系学院长聘正教授、中外人文交流研究(教育部)基地执行主任王栋在外交事务领域全球权威刊物ForeignAffairs(《外交事务》)发表题为“TheCaseforaNewEngagementConsensus:AChineseVisionofGlobalOrder” ...北京大学通知公告 本站小编 Free考研考试 2021-12-20李辰旭:构建由数据驱动的金融衍生品定价模型
从沪深300股指期货鸣锣上市到探索各类股指ETF期权、股票期权、利率期权,10余年间,金融衍生品已深深嵌入我国资本市场肌理,并与广大投资者利益密切相关。大数据时代,如何让金融衍生品的定价更科学、更有效,从而助力交易决策和风险管理的重大需求?北京大学光华管理学院商务统计与经济计量系副教授李辰旭通过理论 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20北京大学人民医院乳腺中心双示踪前哨淋巴结活检长期随访结果于Breast Cancer Research and treatment杂志在线发表
就在2021年3月24日,权威国际学术期刊BreastCancerResearchandtreatment杂志在线发表了北京大学人民医院论著“Long-termfollow-upresultsoffluorescenceandbluedyeguidedsentinellymphnodebiopsyi ...北京大学通知公告 本站小编 Free考研考试 2021-12-20