Prospects for national biological big data centers
Yingke Ma1,2, Yiming Bao,1,2,3通讯作者:
编委: 周钢桥
收稿日期:2018-07-2修回日期:2018-09-19网络出版日期:2018-11-20
基金资助: |
Received:2018-07-2Revised:2018-09-19Online:2018-11-20
Fund supported: |
作者简介 About authors
马英克,博士,助理研究员,研究方向:生物信息学E-mail:mayk@big.ac.cn。
摘要
关键词:
Abstract
Keywords:
PDF (236KB)元数据多维度评价相关文章导出EndNote|Ris|Bibtex收藏本文
本文引用格式
马英克, 鲍一明. 国家级生物大数据中心展望[J]. 遗传, 2018, 40(11): 938-943 doi:10.16288/j.yczz.18-180
Yingke Ma, Yiming Bao.
20世纪90年代发起和实施的人类基因组计划极大地推动了高通量测序技术的进步和应用[1]。人类基因组草图绘制完成后,欧美发达国家又纷纷启动了基于测序技术的生命科学大数据研究计划,如国际千人基因组计划[2]、DNA元件百科全书计划[3]、英国万人和10万人基因组计划[4,5]、美国精准医学计划(https://allofus.nih.gov/)、癌症基因组图谱计划[6]和微生物组计划[7,8],以及日本[9]、冰岛[10]、加拿大[11]和荷兰[12]等国家的基因组人群队列研究,这些计划的实施带动了生物信息学技术、蛋白质组学技术、代谢组学技术、图像处理技术以及其他高通量组学技术的发展,使得人体成为大数据重要产出源,以目前多种组学数据、医学影像和临床资料在内统计的生物信息数据产出达到了10TB/人的水平(基于美国NetApp.com公司数据),全球每年产生的生物数据总量已达EB级[13],标志着生命科学已经从实验数据积累阶段进入大数据科学时代。对生物大数据开展有效的管理和应用,将信息技术与生物技术有效融合,正在给生命科学及相关产业领域带来一次新的革命,尤其在人口健康领域,大数据贯穿从基础研究、药物开发、临床诊疗到健康管理的所有环节。能否拥有这些生命大数据资源及对其高效存储、管理和应用,已经成为一个国家综合国力的重要体现。本文以美国NCBI为例介绍了国际生物大数据中心的发展历程及现状,阐明我国建立国家级生物大数据中心的重要性、迫切性、当前历史机遇和发展前景。
1 国际生物大数据中心的发展及现状
国际核酸序列数据库联盟(International Nucleotide Sequence Database Collaboration, INSDC)由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)、欧洲生物信息学研究所(European Bioinformatics Institute, EBI)和日本DNA数据库(DNA Database of Japan, DDBJ)组成,掌握和管理着全世界绝大部分的组学生物信息数据。欧、美、日这几大国际生物信息中心建设起步早,多年来一直引领着全球生物大数据及生物信息领域的发展。以NCBI(http://www.ncbi.nlm.nih.gov/)为例,早在1988年,美国国会就关注到生物技术领域的重要性,意识到利用由DNA测序带来的大数据的迫切性,专门成立了NCBI。30年多年来,美国政府一直提供持续稳定的支持。NCBI初建时仅几个人,发展到今天700多人的规模,它所开发和维护的PubMed (http://www.ncbi.nlm.nih.gov/pubmed/)、BLAST (http://blast.ncbi.nlm.nih.gov/Blast.cgi)和GenBank (http: //www.ncbi.nlm.nih.gov/genbank/)等上百个数据库和软件,已经成为生命科学研究开发领域必不可少的资源。1997年,当时的美国副总统戈尔亲自启动了PubMed的在线搜索系统,足见政府对NCBI的重视程度。NCBI还被一些科学家戏称为美国政府做的唯一有用的事情[14]。在政府的全额拨款支持下(预算额度最高的2014财政年度达到9480万美元),NCBI现今已经形成了具有数十Petabytes存储、千万亿次计算资源及110 Gbps网络带宽资源的全球领先的国家生物信息中心。NCBI拥有一支强大的研究开发团队,为美国乃至全球科学家提供基础设施及大数据研究与应用服务,有力地支持了美国生命科学研究领域的领跑式发展。由于国际几大数据中心在生物大数据领域的领导地位,国际主流期刊杂志要求论文递交者把发表的数据递交到NCBI等国际知名数据库,供全世界科研人员免费使用。另外,作为美国最大的生物医学基金资助机构,美国国立卫生研究院(National Institutes of Health, NIH)资助的科研项目明确要求所产出的基因组信息必须及时在NCBI的GenBank等数据库公开,这在很大程度上保证了NCBI有稳定的数据来源。这些政策使得全球生命科学研究产生的生物医学大数据,源源不断地进入国际上极少数的核心数据中心,数据量不断地暴涨,截止到2018年8月,仅NCBI的Sequence Read Archive (SRA, http://www.ncbi.nlm.nih.gov/sra/)数据已接近20PB (https://www.ncbi.nlm.nih.gov/sra/docs/sragrowth/)。
在数据量剧增的同时,国际大数据中心的经费支持和人员总数却趋于平稳,给这些中心的运行和维护带来了巨大的挑战。为了应对这一问题,国际大数据中心一方面在积极寻求新的运维模式,比如将数据存储到商业云;另一方面,不得不削减一些服务,例如从2017年开始,NCBI的dbSNP (http:// www.ncbi.nlm.nih.gov/snp/)和dbVar (http://www.ncbi. nlm.nih.gov/pubmed/dbvar/)数据库不再接收、支持除人以外物种的变异数据(https://ncbiinsights.ncbi.nlm. nih.gov/2017/05/09/phasing-out-support-for-non-human- genome-organism-data-in-dbsnp-and-dbvar/)。
2 我国建立国家级生物大数据中心的重要性和迫切性
我国幅员辽阔,生物样本资源丰富,人口数量居世界第一,仅重大慢病患者就超过3.4亿人,是生物数据产出大国。随着国家在人口健康领域的战略性部署,越来越多的大型人群队列研究,如“国家大型健康队列”、“重大疾病专病队列”、“罕见病的临床队列”等项目,以及人类遗传资源库、主要入侵生物的动态分布与资源库建设等等(基于国家重点研发计划2018年度项目申报指南,http://service.most.gov.cn/2015tztg_all/20170526/2179.html),将要收集数十万甚至数百万人群和生物的百PB级数据。这些海量数据,将会成为我国未来医学模式转变和相关产业创新的重要支撑。对这些数据的存储、管理和计算分析是有效利用生物大数据的前提基础和重要保障。但是在生物大数据领域,我国目前尚缺乏国家层面上对生物大数据进行有效存储、管理和利用的体制、机制和环境,造成了以下3大问题。
2.1 我国产出的生物数据得不到永久保存以及共享利用
一方面,由于缺乏强制性的数据递交和共享政策,很多数据散落在各个研究人员和单位的电脑里。随着研究人员的流动或电脑设备的淘汰,有些数据就被丢失了。另一方面,即使是有些科研项目要求数据汇交共享,但是由于没有一个国家级的生物大数据中心,这些数据往往只存放在本项目支持的数据库,仅支持项目内部有限的共享,而且也存在着项目结束后缺乏维护更新,不可持续的问题。更为严重的是,依托项目的数据库通常是由全新组合的团队构建,在数据标准的建立、数据管理和共享等方面往往达不到国家级大数据中心的专业水平,而且有些数据库是简单重复建设。近年来,我国生物领域数据科学家依托国家项目经费扶持建立了大量的数据库资源,据最新统计(基于Database Commons数据库,http://databasecommons.org/),我国生物数据库资源总数位居世界第二,但是利用率极低。由于这类数据库大多分散保存、不成系统、水平低下,不利于数据共享,造成了国家宝贵生物数据资源和投入资金的巨大浪费。2.2 目前我国严重依赖国际主要生物数据库
一方面,绝大部分的生物数据以及主要的生物信息分析工具都存放在国际主要生物数据库中,出于科研的需要,研究人员必须使用这些数据库搜索、下载和分析生物数据。另一方面,随着国家科研支持力度的加大和国内整体科研水平的提升,越来越多的科研单位正在产出更多的生物组学原始数据,而且用这些数据在国际期刊上发表了很多的论文。按照期刊要求,在论文发表前,需要将这些数据递交到期刊认可的公开数据库中。由于我国一直以来缺乏这类国际期刊认可的公开数据库,几乎所有的数据都必须提交到国际主要数据库(如NCBI的SRA)。由于递交系统的复杂,绝大多数的科研机构需要雇用专门的生物信息人员,或者是外包给私营公司来递交这类数据。在这方面的花费甚至超过了数据产生本身,从国家整体层面上看,这是一笔很大的支出和浪费。除此之外,受国际网络带宽的限制,数据传输缓慢,加上语言障碍等方面的因素,经常造成数据递交的延误,影响论文的及时发表。在当今世界上研究成果发表分秒必争的时代,这些问题让我国在国际科研竞争舞台上失去先机。另外还有断网的风险,一旦国际数据库出现问题(如美国财政预算导致NCBI停摆),国内相关搜索和分析都将中断,会对国内的科研造成巨大影响。2.3 我国目前对生物数据的使用尚缺乏有效的监管
出于对个人隐私和知识产权等方面保护的需求,国际主要生物数据库对一些敏感数据(比如人类遗传资源数据)会设置不同层级的数据共享权限和管理原则, 按共享层级分成公开级、学术共享级和授权共享级等。我国虽然起草了《人类遗传资源管理条例》并在积极推动其立法实施,而且成立了专门机构对人类遗传资源采集、收集、买卖、出口和出境的申报进行审批,但是由于研究项目和团队众多,数据存放分散,缺乏国家统一的数据汇交和管理平台,对人类遗传资源不能起到全面追踪和系统监管,造成了一些敏感数据的不当流失,严重损害了国家利益。为了充分保存和有效利用国家宝贵生物数据资源,维护国家在生物资源方面的合法利益,避免在世界科技赛跑中受制于他人,我国亟需建立国家级生物大数据中心,把我国的生物大数据存好、管好、用好。
3 建设国家级生物大数据中心的机遇
最近,国家就大数据、科学大数据以及生物大数据的发展布局出台了一系列战略方针和政策。中共中央政治局2017年12月8日就实施国家大数据战略进行学习,强调加快推动实施国家大数据战略,加快建设大数据基础设施,推进数据资源整合和开放共享,加快建设数字中国,更好服务我国经济社会发展和人民生活改善。2018年3月17日,国务院办公厅发布《科学数据管理办法》,标志着我国开始从国家层面实施科学数据管理。2018年4月10日,科技部发布“十三五”生物技术创新专项规划,明确提出:建设国家生物信息中心、人类遗传资源库和生物和医学大数据等战略资源平台,构建一批资源共享库及共享服务体系。这些大数据战略方针、政策为建立我国国家级生物大数据中心带来了前所未有的历史机遇。我国具有庞大的生物数据资源优势及世界领先的数据产出能力,为国家级生物大数据中心提供了充足的数据储备。多年来,我国相继建立了包括北京大学生物信息学中心、国家人口与健康科学数据共享服务平台、中国科学院生物物理研究所健康大数据中心、凤凰中心、中国科学院微生物研究所大数据中心、国家基因库和上海生物医学大数据中心等在内的各种类型的大数据中心,已逐步具备形成国家级生物大数据中心的研究基础、设施架构、技术支撑体系。特别值得一提的是,2016年成立的中国科学院北京基因组研究所生命与健康大数据中心(BIG Data Center, BIGD)[15,16],被国际同行列入与美国的NCBI和英国的EBI齐名的全球主要数据中心[17],标志着我国生物大数据中心开始同国际接轨。
1999年6月,已故郝柏林院士在院士建议书中就提出了建立“国家生物医学信息中心”的建议。2013年1月,中国科学院专门组织了由30多名生物信息学领域相关院士和专家组成的调查组,召开了多次调研会,专程访问了NCBI等国际生物信息中心,并于2015年底向国家有关部门提交了调研报告:《我国亟待建设“国家生物信息中心”的建议》。由此可见,建立国家级的生物大数据中心是我国广大科研人员的共识。多年来,我国培养并积累了一大批从事生物大数据研究的****,更有超过10位曾经在NCBI和EBI等国际知名生物大数据中心工作过的专家回到国内工作,他们具有丰富的实践经验,可以为我国国家级生物大数据中心的建设发挥十分重要的指导作用。
4 结语与展望
虽然我国大数据产业起步晚,但是发展迅速且势头强劲,已经在各个领域成为推动经济发展和提升政府治理能力的重要引擎。中国信息通信研究院《中国大数据发展调查报告(2017)》指出2016年中国大数据市场规模达168亿元,预计2017~2020年仍将保持30%以上的增长速度。为了加强对我国生物大数据的管理,解决我国生物大数据流失的问题,中国科学院北京基因组研究所生命与健康大数据中心于2016年初成立。成立两年多来,中心已建成了中国首个具有自主知识产权的组学原始数据归档系统(Genome Sequence Archive, GSA)[18,19],目前已有来自近100家科研单位的300多用户向GSA提交过数据,GSA存储的总数据量将近600TB。中心还建成了6大基础数据库和多个特色资源库,提供跨库检索功能,形成了多组学数据资源体系[20]。另外,在精准医学方面,中心基于已有的中国人群基因组数据建成了中国人群动态基因组数据库和中国人群全基因组序列的基因组变异数据库[21]。
尽管如此,建设我国国家级生物大数据中心还面临着诸多挑战:(1)获取尽可能多的我国生物大数据资源的机制还不完善。这一方面需要我们创建更好的数据获取模式来维系生物大数据的生态系统,例如和国内外有影响力的期刊合作,建立数据引用机制,激励更多的用户提交更多更有价值的数据;另一方面也需要国家的政策支持,例如国家财政课题产生的数据必须强制递交到国家级生物大数据中心等。(2)缺乏全方位支撑生物大数据深入解析的平台。这需要我们进一步完善现有的数据库资源体系和计算分析工具,例如:持续改进现有的生物组学大数据汇交、存储与管理系统,形成国内生物信息数据汇聚基地;整合计算机硬件与生物信息软件、工具和流程等资源,形成面向生物信息大数据分析与挖掘的“生物云”平台;分类整合与挖掘汇聚数据,完善多组学数据库系统,形成面向不同研究方向的数据库服务体系等。(3)国内生物数据中心分散,缺乏统一的数据标准和规范,给建立国家级生物数据库体系带来困难。这就需要科研人员研究基于元数据的多个数据库的模式整合技术,研究基于多模态数据索引的高速搜索排序算法,开发生物大数据智能搜索引擎等。
我们希望并且坚信,在生命健康领域,将会很快通过统一生物大数据存储和共享的标准,同时建成国家级生物大数据中心,将信息科学、生命科学、计算科学和临床医学有效交叉,开展多维数据的深度挖掘,揭示海量数据中蕴含的深刻科学规律,获取新知识和新发现,形成有效的管理能力和技术体系,以承接我国生物资源、人口健康、环境与农业等大数据和国家人类遗传资源,利用数据开展实时分析、预测分析、个性化分析和解析复杂相关性等等,为数据使用者提供更方便、迅捷、准确的技术服务,形成立足我国和具有国际影响力的生物信息研究和应用中心。
致谢
感谢北京大学罗静初教授和国家蛋白质科学中心朱伟民教授对文章的宝贵意见,感谢北京基因组研究所吴双秀对文章的编辑和整理工作。参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子
,
URL [本文引用: 1]
,
URL [本文引用: 1]
,
URL [本文引用: 1]
,
URLPMID:28796226 [本文引用: 1]
Gene-edited embryos are exciting, but the truly urgent conversations concern genomic medicine, says Vivienne Parry.
,
URLPMID:29691228 [本文引用: 1]
In partnership with NHS England, Genomics England’s ambitious plans to embed genomic medicine into routine patient care are well underway. Clare Turnbull and colleagues discuss its progressMany disorders we encounter in clinical medicine have a genomic basis, from rare “single gene” disorders such as cystic fibrosis, to complex, polygenic disorders such as ischaemic heart disease, drug toxicity, and tumour evolution driven by serial somatic mutations. Next generation technology has transformed the capacity, speed, and cost of genomic sequencing. This has provided important advances and new opportunities for the clinical application of genomics (fig 1). However, radical expansion of genomic medicine within clinical care requires new infrastructure, extended skills, education of the workforce, and diligent engagement with the public. The Genomics England 10065000 Genomes Project was initiated in 2013 to establish the use of whole genome sequencing in the NHS and drive change within NHS services to adopt this technology.Fig 1 Potential applications of genomics in medicineThe UK has long been at the forefront of discovery in human genomics and is recognised for its world leading genetic research studies, such as UK Biobank and Deciphering Developmental Disorders (fig 2).123 In parallel the UK has evolved a mature network of NHS funded regional genetics laboratories and clinical genetics departments.Fig 2 Genomics in the UK: timelines of clinical testing and research achievementsUntil recently, genomic technologies available in the clinic have enabled us to look for the “causative mutation” just one segment of a gene at a time, limiting both the speed and volume of clinical testing. Over the past decade, next generation sequencing has made it possible to sequence millions of fragments of DNA simultaneously. This step change in scale enables us to offer genetic testing to many more people and test one person for hundreds or thousands …
,
URL [本文引用: 1]
,
URL [本文引用: 1]
,
URLPMID:19819907 [本文引用: 1]
The Human Microbiome Project (HMP), funded as an initiative of the NIH Roadmap for Biomedical Research (http://nihroadmap.nih.gov), is a multi-component community resource. The goals of the HMP are: (1) to take advantage of new, high-throughput technologies to characterize the human microbiome more fully by studying samples from multiple body sites from each of at least 250 "normal" volunteers; (2) to determine whether there are associations between changes in the microbiome and health/disease by studying several different medical conditions; and (3) to provide both a standardized data resource and new technological approaches to enable such studies to be undertaken broadly in the scientific community. The ethical, legal, and social implications of such research are being systematically studied as well. The ultimate objective of the HMP is to demonstrate that there are opportunities to improve human health through monitoring or manipulation of the human microbiome. The history and implementation of this new program are described here.
,
URL [本文引用: 1]
,
URLPMID:25807286 [本文引用: 1]
Abstract Here we describe the insights gained from sequencing the whole genomes of 2,636 Icelanders to a median depth of 20 . We found 20 million SNPs and 1.5 million insertions-deletions (indels). We describe the density and frequency spectra of sequence variants in relation to their functional annotation, gene position, pathway and conservation score. We demonstrate an excess of homozygosity and rare protein-coding variants in Iceland. We imputed these variants into 104,220 individuals down to a minor allele frequency of 0.1% and found a recessive frameshift mutation in MYL4 that causes early-onset atrial fibrillation, several mutations in ABCB4 that increase risk of liver diseases and an intronic variant in GNAS associating with increased thyroid-stimulating hormone levels when maternally inherited. These data provide a study design that can be used to determine how variation in the sequence of the human genome gives rise to human diversity.
,
URLPMID:5798982 [本文引用: 1]
BACKGROUND:The Personal Genome Project Canada is a comprehensive public data resource that integrates whole genome sequencing data and health information. We describe genomic variation identified in the initial recruitment cohort of 56 volunteers.METHODS:Volunteers were screened for eligibility and provided informed consent for open data sharing. Using blood DNA, we performed whole genome sequencing and identified all possible classes of DNA variants. A genetic counsellor explained the implication of the results to each participant.RESULTS:Whole genome sequencing of the first 56 participants identified 207 662 805 sequence variants and 27 494 copy number variations. We analyzed a prioritized disease-associated data set (n = 1606 variants) according to standardized guidelines, and interpreted 19 variants in 14 participants (25%) as having obvious health implications. Six of these variants (e.g., in BRCA1 or mosaic loss of an X chromosome) were pathogenic or likely pathogenic. Seven were risk factors for cancer, cardiovascular or neurobehavioural conditions. Four other variants associated with cancer, cardiac or neurodegenerative phenotypes remained of uncertain significance because of discrepancies among databases. We also identified a large structural chromosome aberration and a likely pathogenic mitochondrial variant. There were 172 recessive disease alleles (e.g., 5 individuals carried mutations for cystic fibrosis). Pharmacogenomics analyses revealed another 3.9 potentially relevant genotypes per individual.INTERPRETATION:Our analyses identified a spectrum of genetic variants with potential health impact in 25% of participants. When also considering recessive alleles and variants with potential pharmacologic relevance, all 56 participants had medically relevant findings. Although access is mostly limited to research, whole genome sequencing can provide specific and novel information with the potential of major impact for health care.
,
URL [本文引用: 1]
,
URL [本文引用: 1]
In the life sciences, data can come in many forms, including information about genomic sequences, molecular pathways, and different populations of people. Those data create a potential bonanza, if scientists can overcome one stumbling block: how to handle the complexity of information. Tools and techniques for analyzing big data promise to mold massive mounds of information into a better understanding of the basic biological mechanisms and how the results can be applied in, for example, health care.Read the Feature (Full-Text HTML)Read the Feature (PDF)Read New Products (PDF)
,
URLPMID:9112765 [本文引用: 1]
Somerville C, Flanders D, Cherry JM.
,
URLPMID:27899658 [本文引用: 1]
Abstract Biological data are generated at unprecedentedly exponential rates, posing considerable challenges in big data deposition, integration and translation. The BIG Data Center, established at Beijing Institute of Genomics (BIG), Chinese Academy of Sciences, provides a suite of database resources, including (i) Genome Sequence Archive, a data repository specialized for archiving raw sequence reads, (ii) Gene Expression Nebulas, a data portal of gene expression profiles based entirely on RNA-Seq data, (iii) Genome Variation Map, a comprehensive collection of genome variations for featured species, (iv) Genome Warehouse, a centralized resource housing genome-scale data with particular focus on economically important animals and plants, (v) Methylation Bank, an integrated database of whole-genome single-base resolution methylomes and (vi) Science Wikis, a central access point for biological wikis developed for community annotations. The BIG Data Center is dedicated to constructing and maintaining biological databases through big data integration and value-added curation, conducting basic research to translate big data into big knowledge and providing freely open access to a variety of data resources in support of worldwide research activities in both academia and industry. All of these resources are publicly available and can be found at http://bigd.big.ac.cn. The Author(s) 2016. Published by Oxford University Press on behalf of Nucleic Acids Research.
,
URLPMID:29140455 [本文引用: 1]
Abstract Cell types in cell populations change as the condition changes: some cell types die out, new cell types may emerge and surviving cell types evolve to adapt to the new condition. Using single-cell RNA-sequencing data that measure the gene expression of cells before and after the condition change, we propose an algorithm, SparseDC, which identifies cell types, traces their changes across conditions and identifies genes which are marker genes for these changes. By solving a unified optimization problem, SparseDC completes all three tasks simultaneously. SparseDC is highly computationally efficient and demonstrates its accuracy on both simulated and real data. The Author(s) 2017. Published by Oxford University Press on behalf of Nucleic Acids Research.
,
URL [本文引用: 1]
,
URLPMID:5339404 [本文引用: 1]
With the rapid development of sequencing technologies towards higher throughput and lower cost, sequence data are generated at an unprecedentedly explosive rate. To provide an efficient and easy-to-use platform for managing huge sequence data, here we presentGenome Sequence Archive(GSA;http://bigd.big.ac.cn/gsaorhttp://gsa.big.ac.cn), a data repository for archivingraw sequence data. In compliance with data standards and structures of the International Nucleotide Sequence Database Collaboration (INSDC), GSA adopts four data objects (BioProject, BioSample, Experiment, and Run) for data organization, accepts raw sequence reads produced by a variety of sequencing platforms, stores both sequence reads and metadata submitted from all over the world, and makes all these data publicly available to worldwide scientific communities. In the era ofbig data, GSA is not only an important complement to existing INSDC members by alleviating the increasing burdens of handling sequence data deluge, but also takes the significant responsibility for global big data archive and provides free unrestricted access to all publicly available data in support of research activities throughout the world.
[本文引用: 1]
,
[本文引用: 1]
[本文引用: 1]
,
[本文引用: 1]
[本文引用: 1]
,
[本文引用: 1]