何顺民研究员与其合作者在2014年发布了piRBase数据库的第一个版本(Database (Oxford),2014)。piRBases数据库是国际RNA联盟RNAcentral收录的唯一一个piRNA专业数据库。之后,他们又系统的发现了piRNA对编码基因的剪切调控作用(Cell Research,2015),并开发了piRNA靶基因预测算法(Bioinformatics, 2016)。基于这些工作成果,本次piRBase升级既包括原有模块新数据的收录,又涉及到新模块的添加以扩展piRBase的综合性和全面性。最新版piRBase中piRNA的数量达到了1.7亿多条,覆盖了21个物种的264个数据集,是目前数据量最大最全的piRNA数据库。鉴于piRNA的功能多样性,piRBase根据其来源将piRNA划分为重复序列来源和基因来源两大类;在piRNA靶基因模块中除了添加了新收集的piRNA的靶基因,他们还根据自己研发的预测方法对piRNA的靶lncRNA进行了预测并在piRBase中进行了收录展示为相关研究人员提供可靠的候选靶基因;piRBase进一步对piRNA相关的表观遗传数据进行了收集整理旨在推进piRNA和表观遗传调控之间的研究。此次升级主要新增piRNA与癌症以及在线工具两个模块。piRNA与癌症模块收录了8种癌症中piRNA的表达情况来辅助癌症相关的研究;本次更新还提供了多个在线工具可以为用户提供更好的体验。piRBase中所有相关数据都可以通过piRBase (http://regulatoryrna.org/database/piRNA/) 网站的UCSC genome browser进行可视化。
piRBase的此次更新工作主要由中国科学院生物物理研究所健康大数据研究中心(http://bigdata.ibp.ac.cn)完成。该研究中心于2015年5月成立,陈润生院士任中心主任,何顺民研究员任中心常务副主任。中心主要针对生物组学大数据进行整合挖掘分析研究,并辅以开发组学研究分析的新技术,力求打造围绕国家精准医学和重要战略生物资源的组学数据存储、应用和共享的公共技术支撑体系。经过近三年运行,中心发展迅速,已完成测序平台、计算集群和数据存储平台、多组学生命数据分析平台和数据共享平台的建设。
中国科学院生物物理研究所陈润生院士、何顺民研究员为本文共同通讯作者。中国科学院生物物理研究所健康大数据研究中心王佳佳、张鹏副研究员和路一平为本文并列第一作者。
该文章获得国家重点研发项目[2016YFC0901702]、国家自然科学基金[31871294]的资助。
文章链接: https://doi.org/10.1093/nar/gky1043

piRBase website :http://regulatoryrna.org/database/piRNA/
相关文献:
Yuan, J., Zhang, P., Cui, Y., Wang, J., Skogerbo, G., Huang, D.W., Chen, R., and He, S. (2016). Computational identification of piRNA targets on mouse mRNAs. Bioinformatics 32, 1170-1177.
Zhang, P., Kang, J.Y., Gou, L.T., Wang, J., Xue, Y., Skogerboe, G., Dai, P., Huang, D.W., Chen, R., Fu, X.D., et al. (2015). MIWI and piRNA-mediated cleavage of messenger RNAs in mouse testes. Cell research 25, 193-207.
Zhang, P., Si, X., Skogerbo, G., Wang, J., Cui, D., Li, Y., Sun, X., Liu, L., Sun, B., Chen, R., et al. (2014). piRBase: a web resource assisting piRNA functional study. Database (Oxford) 2014, bau110.
(供稿:健康大数据研究中心)
