Prospects for national biological big data centers
Yingke Ma1,2, Yiming Bao
1 国际生物大数据中心的发展及现状
国际核酸序列数据库联盟(International Nucleotide Sequence Database Collaboration, INSDC)由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)、欧洲生物信息学研究所(European Bioinformatics Institute, EBI)和日本DNA数据库(DNA Database of Japan, DDBJ)组成,掌握和管理着全世界绝大部分的组学生物信息数据。欧、美、日这几大国际生物信息中心建设起步早,多年来一直引领着全球生物大数据及生物信息领域的发展。以NCBI(http://www.ncbi.nlm.nih.gov/)为例,早在1988年,美国国会就关注到生物技术领域的重要性,意识到利用由DNA测序带来的大数据的迫切性,专门成立了NCBI。30年多年来,美国政府一直提供持续稳定的支持。NCBI初建时仅几个人,发展到今天700多人的规模,它所开发和维护的PubMed (http://www.ncbi.nlm.nih.gov/pubmed/)、BLAST (http://blast.ncbi.nlm.nih.gov/Blast.cgi)和GenBank (http: //www.ncbi.nlm.nih.gov/genbank/)等上百个数据库和软件,已经成为生命科学研究开发领域必不可少的资源。1997年,当时的美国副总统戈尔亲自启动了PubMed的在线搜索系统,足见政府对NCBI的重视程度。NCBI还被一些科学家戏称为美国政府做的唯一有用的事情[14]。在政府的全额拨款支持下(预算额度最高的2014财政年度达到9480万美元),NCBI现今已经形成了具有数十Petabytes存储、千万亿次计算资源及110 Gbps网络带宽资源的全球领先的国家生物信息中心。NCBI拥有一支强大的研究开发团队,为美国乃至全球科学家提供基础设施及大数据研究与应用服务,有力地支持了美国生命科学研究领域的领跑式发展。由于国际几大数据中心在生物大数据领域的领导地位,国际主流期刊杂志要求论文递交者把发表的数据递交到NCBI等国际知名数据库,供全世界科研人员免费使用。另外,作为美国最大的生物医学基金资助机构,美国国立卫生研究院(National Institutes of Health, NIH)资助的科研项目明确要求所产出的基因组信息必须及时在NCBI的GenBank等数据库公开,这在很大程度上保证了NCBI有稳定的数据来源。这些政策使得全球生命科学研究产生的生物医学大数据,源源不断地进入国际上极少数的核心数据中心,数据量不断地暴涨,截止到2018年8月,仅NCBI的Sequence Read Archive (SRA, http://www.ncbi.nlm.nih.gov/sra/)数据已接近20PB (https://www.ncbi.nlm.nih.gov/sra/docs/sragrowth/)。
在数据量剧增的同时,国际大数据中心的经费支持和人员总数却趋于平稳,给这些中心的运行和维护带来了巨大的挑战。为了应对这一问题,国际大数据中心一方面在积极寻求新的运维模式,比如将数据存储到商业云;另一方面,不得不削减一些服务,例如从2017年开始,NCBI的dbSNP (http:// www.ncbi.nlm.nih.gov/snp/)和dbVar (http://www.ncbi. nlm.nih.gov/pubmed/dbvar/)数据库不再接收、支持除人以外物种的变异数据(https://ncbiinsights.ncbi.nlm. nih.gov/2017/05/09/phasing-out-support-for-non-human- genome-organism-data-in-dbsnp-and-dbvar/)。
2 我国建立国家级生物大数据中心的重要性和迫切性
2.1 我国产出的生物数据得不到永久保存以及共享利用
一方面,由于缺乏强制性的数据递交和共享政策,很多数据散落在各个研究人员和单位的电脑里。随着研究人员的流动或电脑设备的淘汰,有些数据就被丢失了。另一方面,即使是有些科研项目要求数据汇交共享,但是由于没有一个国家级的生物大数据中心,这些数据往往只存放在本项目支持的数据库,仅支持项目内部有限的共享,而且也存在着项目结束后缺乏维护更新,不可持续的问题。更为严重的是,依托项目的数据库通常是由全新组合的团队构建,在数据标准的建立、数据管理和共享等方面往往达不到国家级大数据中心的专业水平,而且有些数据库是简单重复建设。近年来,我国生物领域数据科学家依托国家项目经费扶持建立了大量的数据库资源,据最新统计(基于Database Commons数据库,http://databasecommons.org/),我国生物数据库资源总数位居世界第二,但是利用率极低。由于这类数据库大多分散保存、不成系统、水平低下,不利于数据共享,造成了国家宝贵生物数据资源和投入资金的巨大浪费。2.2 目前我国严重依赖国际主要生物数据库
一方面,绝大部分的生物数据以及主要的生物信息分析工具都存放在国际主要生物数据库中,出于科研的需要,研究人员必须使用这些数据库搜索、下载和分析生物数据。另一方面,随着国家科研支持力度的加大和国内整体科研水平的提升,越来越多的科研单位正在产出更多的生物组学原始数据,而且用这些数据在国际期刊上发表了很多的论文。按照期刊要求,在论文发表前,需要将这些数据递交到期刊认可的公开数据库中。由于我国一直以来缺乏这类国际期刊认可的公开数据库,几乎所有的数据都必须提交到国际主要数据库(如NCBI的SRA)。由于递交系统的复杂,绝大多数的科研机构需要雇用专门的生物信息人员,或者是外包给私营公司来递交这类数据。在这方面的花费甚至超过了数据产生本身,从国家整体层面上看,这是一笔很大的支出和浪费。除此之外,受国际网络带宽的限制,数据传输缓慢,加上语言障碍等方面的因素,经常造成数据递交的延误,影响论文的及时发表。在当今世界上研究成果发表分秒必争的时代,这些问题让我国在国际科研竞争舞台上失去先机。另外还有断网的风险,一旦国际数据库出现问题(如美国财政预算导致NCBI停摆),国内相关搜索和分析都将中断,会对国内的科研造成巨大影响。2.3 我国目前对生物数据的使用尚缺乏有效的监管
出于对个人隐私和知识产权等方面保护的需求,国际主要生物数据库对一些敏感数据(比如人类遗传资源数据)会设置不同层级的数据共享权限和管理原则, 按共享层级分成公开级、学术共享级和授权共享级等。我国虽然起草了《人类遗传资源管理条例》并在积极推动其立法实施,而且成立了专门机构对人类遗传资源采集、收集、买卖、出口和出境的申报进行审批,但是由于研究项目和团队众多,数据存放分散,缺乏国家统一的数据汇交和管理平台,对人类遗传资源不能起到全面追踪和系统监管,造成了一些敏感数据的不当流失,严重损害了国家利益。为了充分保存和有效利用国家宝贵生物数据资源,维护国家在生物资源方面的合法利益,避免在世界科技赛跑中受制于他人,我国亟需建立国家级生物大数据中心,把我国的生物大数据存好、管好、用好。
3 建设国家级生物大数据中心的机遇
最近,国家就大数据、科学大数据以及生物大数据的发展布局出台了一系列战略方针和政策。中共中央政治局2017年12月8日就实施国家大数据战略进行学习,强调加快推动实施国家大数据战略,加快建设大数据基础设施,推进数据资源整合和开放共享,加快建设数字中国,更好服务我国经济社会发展和人民生活改善。2018年3月17日,国务院办公厅发布《科学数据管理办法》,标志着我国开始从国家层面实施科学数据管理。2018年4月10日,科技部发布“十三五”生物技术创新专项规划,明确提出:建设国家生物信息中心、人类遗传资源库和生物和医学大数据等战略资源平台,构建一批资源共享库及共享服务体系。这些大数据战略方针、政策为建立我国国家级生物大数据中心带来了前所未有的历史机遇。我国具有庞大的生物数据资源优势及世界领先的数据产出能力,为国家级生物大数据中心提供了充足的数据储备。多年来,我国相继建立了包括北京大学生物信息学中心、国家人口与健康科学数据共享服务平台、中国科学院生物物理研究所健康大数据中心、凤凰中心、中国科学院微生物研究所大数据中心、国家基因库和上海生物医学大数据中心等在内的各种类型的大数据中心,已逐步具备形成国家级生物大数据中心的研究基础、设施架构、技术支撑体系。特别值得一提的是,2016年成立的中国科学院北京基因组研究所生命与健康大数据中心(BIG Data Center, BIGD)[15,16],被国际同行列入与美国的NCBI和英国的EBI齐名的全球主要数据中心[17],标志着我国生物大数据中心开始同国际接轨。
4 结语与展望
虽然我国大数据产业起步晚,但是发展迅速且势头强劲,已经在各个领域成为推动经济发展和提升政府治理能力的重要引擎。中国信息通信研究院《中国大数据发展调查报告(2017)》指出2016年中国大数据市场规模达168亿元,预计2017~2020年仍将保持30%以上的增长速度。为了加强对我国生物大数据的管理,解决我国生物大数据流失的问题,中国科学院北京基因组研究所生命与健康大数据中心于2016年初成立。成立两年多来,中心已建成了中国首个具有自主知识产权的组学原始数据归档系统(Genome Sequence Archive, GSA)[18,19],目前已有来自近100家科研单位的300多用户向GSA提交过数据,GSA存储的总数据量将近600TB。中心还建成了6大基础数据库和多个特色资源库,提供跨库检索功能,形成了多组学数据资源体系[20]。另外,在精准医学方面,中心基于已有的中国人群基因组数据建成了中国人群动态基因组数据库和中国人群全基因组序列的基因组变异数据库[21]。
感谢北京大学罗静初教授和国家蛋白质科学中心朱伟民教授对文章的宝贵意见,感谢北京基因组研究所吴双秀对文章的编辑和整理工作。
