国际上,美国、欧洲和日本于20世纪80年代相继建立核酸序列数据库[1,2,3],并于2002年成立了国际核酸序列共享联盟(International Nucleotide Sequence Database Collaboration, INSDC)[4],制定了生命科学研究领域数据管理和共享标准,收集并存储来自全世界科学家提交的组学数据,提供共享服务。随着数据量的持续增加和学术论文发表的数据共享要求,大量组学数据通过国际互联网递交到INSDC变得十分困难。我国国际网络出口带宽的瓶颈问题,更使得数据传输效率低下。以中国科学院北京基因组研究所150 Mbs出口带宽为例,向美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)数据库递交1 TB的数据需要花费两周甚至更长的时间。数据下载亦是如此,国内科研人员饱受从国际数据库下载数据效率低下的困扰。这种低下的数据传输效率以及对国际数据库使用的不便,使得我国生物学家在一定程度上失去了生命科学研究领域的竞争力。
随着国家一系列重大生命科学研究计划的部署和实施,预期我国每年将产生超过100 PB的组学数据。为解决这些海量数据存储、管理、共享与发布,中国科学院北京基因组研究所生命与健康大数据中心(BIG Data Center, BIGD)[5,6],研发并构建了组学原始数据归档系统(Genome Sequence Archive, GSA)[7],
1 GSA的数据类别与使用
1.1 数据库建设
为确保与国际同类数据库系统的兼容性,GSA遵循INSDC联盟的数据标准和命名规范。如BioProject序列号(accession number)以PRJC开头,前3位字母PRJ为Project的缩写,第4位字母C代表中国(China),第5位是英文字母A~Z,其余为6位自然数,例如PRJCA000001;BioSample序列号以SAMC开头,前3位字母SAM为Sample的缩写,第4位字母C代表中国(China),第5位是英文字母A~Z,其余为6位自然数,例如SAMCA000001。其他数据类型的编码遵循相同标准,既确保数据编码的全局性与唯一性,又便于后续数据使用者的信息检索与访问。
1.2 数据汇交与审核
2017年6月,数据递交系统(BIG Sub)正式上线,作为生命与健康大数据中心数据统一汇交入口,BIG Sub承载GSA系统的数据汇交功能,并为用户提供一站式数据递交服务。在元数据信息汇交方面,BIG Sub提供两种数据递交方式:在线递交和离线递交。在线递交即通过WEB页面实现信息输入,GSA系统提供可视化及向导化的操作模式,最大限度地规范信息录入并实现各类数据的质量控制;离线递交即采用离线模板的形式,由科研人员事先整理文件,然后通过GSA系统或GSA审编人员进行数据批量导入。在线递交较适合小量样本的数据递交(如样本数小于10个),而离线递交适合大量样本的数据递交,这两种互为补充的提交方式为科研人员提供简单、便利、高效的数据递交服务。在测序序列文件汇交方面,提供在线FTP上传服务和邮寄硬盘两种服务模式,如超过500 GB的序列文件,数据递交者可以选择采用邮递硬盘的模式,由GSA系统审编人员协助上传数据。针对FTP数据上传服务,BIG Sub为每位数据递交者提供独立的数据存储空间,以防止不同递交者之间的数据干扰及信息泄露,充分确保数据的隐私性和安全性。GSA系统具有元数据审核和序列数据质量控制功能。针对元数据信息,采用自动校验和人工校验相结合的模式进行审核,以保证信息的有效性。而对于测序序列数据,GSA内置数据质量审核的标准化流程,以防止序列文件在处理、传输、压缩、拷贝等过程中出现损坏。审核内容包括:(1) 文件压缩的正确性;(2) 文件格式的正确性;(3) 序列的测序质量。针对某一数据递交,只有当元数据和序列数据均审核通过,GSA系统方可为该数据分配正式的访问序列号(accession number)。
1.3 数据发布与管理
GSA系统提供两种数据状态控制权限:公开访问(public)或受控访问(confidential),公开即意味着数据可被任何人访问或下载使用,受控即在数据公开发布前,他人的访问将被限制,且无法通过系统检索获取相关的信息,更无法下载相关数据文件。同时,GSA系统提供个性化的数据状态及权限管理方案,即由数据递交者自行设置数据受控保护期限,最大限度的满足论文发表前的数据保密需求,亦可方便论文审稿人对数据在线访问与审核(peer reviewer link),还可快速实现文章发表后的数据发布与共享。2 GSA的运行效果
GSA系统自2015年上线运行以来,获得包括Cell、Nature、PNAS、AJHG、GPB、Cell Research等在内的30余个国内外期刊的认可,支持40余篇科研论文的数据归档与发布任务。截止2018年7月,GSA接收的数据来自国内外93个机构的300余名科研用户,累计递交项目信息达535个,涵盖的生物物种数量超过178个,涉及的生物学样本21 843个,生物学实验28 050个,测序反应29 624个,测序序列数据总量超过 TB,且各类数据呈现显著增长的趋势(图1)。同时,GSA系统收录的数据受到国内外科研人员的广泛关注,经统计发现,GSA系统访问用户来自于70余个国家/地区,累计访问量超过13 305人次。数据下载用户来自39个国家/地区,日平均上传下载量达到1 TB。图1
A: GSA数据库中项目和样本数量统计图;B: GSA数据库中实验、测序反应和文件数量统计图。数据统计截至2018年7月。
Fig. 1Statistics of data submissions of GSA
3 结语与展望
立足现在、着眼未来,GSA将不断完善系统的功能,更加重视数据资源使用者的需求,开发类似fastq-dump (如SRA toolkit)的辅助数据下载,实现数据便捷共享。此外,还将开发基于数据分析的云计算平台,提供免费数据在线分析服务,届时,用户可以不用下载数据便可利用云计算资源进行数据分析。顺应国家大数据发展战略及科技创新和产业发展需求,存好、管好国家生物数据资源,推动“国家生物信息中心”的建立。
