随着高通量测序技术的不断发展,转录组测序(RNA-seq)已成为系统研究基因转录及转录后水平调控状态的常规方法,并在多个物种中得到广泛应用。海量转录组数据以前所未有的速度产生,以数据驱动为导向的大规模数据整合、挖掘与解析面临巨大挑战。为更充分展现转录组数据蕴含的丰富信息,服务生物医学基础研究领域需求,构建标准化数据分析流程和结构化元信息审编模型,建立面向多物种基因转录特征的数据集成与管理资源十分必要。
近日,中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心在Nucleic Acids Research 期刊发表题为“Gene Expression Nebulas (GEN): a comprehensive data portal integrating transcriptomic profiles across multiple species at both bulk and single-cell levels”的论文,建立了基于常规转录组测序(Bulk RNA-seq)和单细胞转录组测序(scRNA-seq)数据挖掘解析的多物种转录图谱整合型数据库Gene Expression Nebulas (GEN)。GEN应用结构化审编模型和标准化数据处理流程,对组织和细胞水平转录组测序数据集进行统一分析,实现了多物种多层面转录调控水平信息的系统整合。目前,GEN共整合了323个高质量转录组数据集,涵盖 30个物种的50,500个样本和15,540,169个细胞,提供基准参考、遗传、表型、环境、时间、空间六类生物学场景下的转录图谱,为生物医学领域科研人员深入理解基因遗传调控结构和功能机制提供基础资源。
基于严格的数据质控标准,GEN审编来自GSA、GEO、ENA和DRA数据库的高质量原始转录组测序数据和详细元数据信息,并利用自主搭建的标准化流程分析处理相应数据,为用户提供包括基因/转录本表达、环形RNA表达、RNA选择性剪接和RNA编辑四个层面的转录图谱。同时,GEN为30个物种的1,191,846个基因提供丰富的注释信息,包括基本注释(例如基因组位置、生物类型、功能描述),以及基于基因表达数据的定量(不同实验条件下的表达水平)和定性(差异表达所处的生物学场景)的增值注释。此外,为方便下游个性化分析,GEN还为用户提供表达谱数据分析及可视化的在线及离线工具,包括基于Bulk RNA-seq表达谱的差异表达分析、加权基因共表达网络分析、功能富集分析和基因调控网络推断,以及基于scRNA-seq表达谱的质量控制、数据标准化、缩放和回归、降维、基于图的聚类、细胞簇标记基因识别、细胞标记、细胞轨迹推断和细胞类型注释等多项分析功能。
GEN对用户免费开放,具备友好的浏览、检索与可视化功能,可方便用户探索多生物学场景下基因/转录本的表达及转录特征。研究团队将持续维护并定期更新GEN,以不断整合更多物种的转录图谱数据资源和集成更为丰富的数据分析功能。
北京基因组所(国家生物信息中心)章张研究员与郝丽丽副研究员为本文共同通讯作者,张源笙、邹东、朱彤彤、徐添翼、陈铭为共同第一作者。该研究得到中科院战略性先导科技专项、国家重点研发计划、中科院青促会等项目资助。
GEN数据库内容和功能模块概览
论文链接
附件下载:
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
北京基因组所(国家生物信息中心)构建多物种转录图谱综合数据库
本站小编 Free考研考试/2022-01-03
相关话题/数据 基因 细胞 信息 数据库
北京基因组所(国家生物信息中心)揭示成体巨核细胞谱系的空间和功能多样性
近日,中国科学院北京基因组研究所(国家生物信息中心)王前飞研究组,首次绘制了小鼠巨核细胞的单细胞转录组图谱,揭示了体内巨核细胞在分子、空间分布及功能上的异质性。在此基础上提出了一种新的巨核细胞分类系统,而免疫巨核群体可能是一个新型造血分支。研究成果以Single-Cell Analysis of P ...中科院北京基因组研究所 本站小编 Free考研考试 2022-01-03国家生物信息中心组学原始数据归档库数据汇交量突破10PB
9月28日,中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心(CNCB-NGDC)组学原始数据归档库(Genome Sequence Archive,简称GSA)的用户汇交数据量突破10 PB(1 PB=1024 TB)。 为存好、管好、用好我国生命组学大数据,解决国内重要数据 ...中科院北京基因组研究所 本站小编 Free考研考试 2022-01-03北京基因组所(国家生物信息中心)合作构建再生生物学多组学数据库
随着细胞重编程、基因编辑、合成生物学、高通量测序等技术的快速发展,再生生物学进入前所未有的蓬勃发展时期,助力解决组织替代、功能修复、衰老干预、疾病治疗等一系列生命医学领域的重要科学难题。面对科学数据的爆炸式增长,亟需建立以再生生物学为核心的开放数据库,以存储世界范围内的组学研究数据为基础,推动再生相 ...中科院北京基因组研究所 本站小编 Free考研考试 2022-01-03GSA数据库获得国际出版社Springer Nature认可
8月4日,国际著名出版社Springer Nature在其官网中将北京基因组所(国家生物信息中心)国家基因组科学数据中心(CNCB-NGDC)开发并运行的组学数据归档库,即GSA和GSA-Human,列为其推荐使用的数据存储和共享系统,Springer Nature旗下的3000多个期刊都将认可GS ...中科院北京基因组研究所 本站小编 Free考研考试 2022-01-03北京基因组研究所(国家生物信息中心)原始数据管理体系(GSA Family)研发取得新进展
8月14日,中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心(CNCB-NGDC)在国际学术期刊Genomics,Proteomics & Bioinformatics在线发表题为“The Genome Sequence Archive Family: Toward Explos ...中科院北京基因组研究所 本站小编 Free考研考试 2022-01-03中国科学院北京基因组研究所(国家生物信息中心)主持制订组学应用卫生信息团体标准
7月11日,第十六届中国卫生信息技术/健康医疗大数据应用交流大会在武汉召开,中国卫生信息与健康医疗大数据学会卫生信息标准专业委员会发布了由中国科学院北京基因组研究所(国家生物信息中心)主持撰写的《人类基因测序原始数据汇交元数据标准》和《组学样本处理与数据分析标准》等6项卫生信息团体标准,并将于8月1 ...中科院北京基因组研究所 本站小编 Free考研考试 2022-01-03北京基因组所(国家生物信息中心)开发在单细胞中识别染色质类TAD结构的算法
基因组DNA和组蛋白以特定的形式高度折叠在细胞核中,这一高级结构即三维基因组学,对细胞核内的诸多生命活动至关重要。基于染色质构象捕获(3C),尤其是高通量技术(Hi-C,ChIA-PET)的发展极大推动了三维基因组的研究,发现了包括染色质拓扑相关结构域(TAD),染色质环等一系列层次化的结构特征。近 ...中科院北京基因组研究所 本站小编 Free考研考试 2022-01-03北京基因组所(国家生物信息中心)国家基因组科学数据中心的多个数据库被Cell期刊推荐使用
近日,国际著名学术期刊Cell在其数据递交指南中将北京基因组所(国家生物信息中心)国家基因组科学数据中心(CNCB-NGDC)的多个数据库列为其生命组学数据存储的推荐数据库,包括组学原始数据归档库(Genome Sequence Archive,GSA)、人类遗传资源组学原始数据归档库(Genome ...中科院北京基因组研究所 本站小编 Free考研考试 2022-01-03北京基因组研究所(国家生物信息中心)基因组数据库取得进展
北京基因组所(国家生物信息中心)针对我国基因组数据“存管用”的实际需求,几年来,共建立了55个数据库,涉及衰老、疾病、调控和生物多样性等多个前沿领域,初步形成了我国生物数据安全汇交管理和多组学数据平台的国家中心数据资源体系。基因组序列和注释是基因组相关研究的重要资源,中国作为世界上生物多样性最丰富的 ...中科院北京基因组研究所 本站小编 Free考研考试 2022-01-03北京基因组所(国家生物信息中心)合作揭示肿瘤相关巨噬细胞调控CD8+ T 细胞命运新机制
肿瘤免疫治疗为癌症患者带来的新的治疗手段和希望,在多种肿瘤类型中都得到了成功的应用。一部分病人可以响应免疫治疗并取得理想的治疗效果。但是,大部分病人对免疫治疗无法产生响应。其中一个重要原因是其肿瘤微环境中T细胞的功能已经处于不可逆的失调状态。研究表明,肿瘤相关巨噬细胞是诱导T细胞功能失调的主力军之一 ...中科院北京基因组研究所 本站小编 Free考研考试 2022-01-03