
对海量微生物组“大数据”的搜索、挖掘与机器学习,能够帮助人们了解微生物组与相关疾病之间的关系,从而利用人体各个部位的共生菌群实现个体化的精准健康、精准护理与精准营养。据了解,该搜索引擎通过建立针对微生物群落的超高速比对算法和数字索引机制,为海量的样本列出基于菌群结构或功能相似性的“目录”。当输入未知样本时,引擎能够根据这一带有菌群相似性信息的“目录”从浩瀚的微生物组大数据海洋中迅速自动选取与该样本最为相似的匹配。同时,引擎还可以自动计算针对特定慢性疾病发表的一系列“微生物组诊断指数”(如该团队与宝洁公司合作发明的牙龈健康诊断方法: Huang, et al, ISME J, 2014)和“微生物组预警指数”(如该团队与中山大学附属口腔医院最近发表的新发性儿童龋齿预测方法等:Teng, et al, Cell Host Microbe, 2015),以判别未知样本针对特定疾病的状态和风险。两者相结合,实现对未知样本的特性做出注释与判断,并根据进一步数据挖掘的结果给出诊断结果和护理方面的建议。
与此同时,配合该搜索引擎,单细胞研究中心还发布了分析软件Parallel-META 3 (Su, et al, Bioinformatics, 2014),不但可以将数量庞大的未知微生物组样本进行结构与功能解析,而且可以与其数据库搜索匹配结果进行更深入的比对分析。此软件的深度数据挖掘能力能够帮助剖析疾病与微生物组之间的关联规律,让微生物组大数据帮我们不仅“知其然”,而且“知其所以然”。
该搜索引擎前期获得了科技部863与国家自然科学基金的支持,并正在支撑着单细胞研究中心主持的“中科院生物高通量检测分析服务网络”在健康、环境、海洋、工业等诸多微生物组应用领域的产学研合作。
相关文章发表:
Su, et al., Bioinformatics, 2014,30(7):1031-1033.
Huang, et al., ISME J, 2014, 8(9):1768-1780.
Teng, et al., Cell Host & Microbe, 2015, 18(3):296-306.
微生物组大数据搜索引擎示范链接:
http://mse.single-cell.cn