细菌IV型分泌系统分泌系统(type IV secretion system, T4SS)是由多个蛋白组件构成的跨膜装置,不仅能够介导DNA接合转移,还能将效应蛋白精准转运到真核或原核细胞中。IV型分泌系统效应蛋白(T4SE)能够影响真核细胞的基因表达和信号转导,在病原细菌致病过程中起到重要作用。前期工作中,欧竑宇研究组构建了T4SS开放数据库SecReT4,通过文本挖掘和人工校正,系统地收录了实验验证的IV型分泌系统基因簇和效应蛋白等高质量数据(Bi, et al.,Nucleic Acids Research, 2013)。预测效应蛋白最简便的方法是与SecReT4收录的T4SEs进行序列比对;而人工智能方法则有可能发现与已知T4SE序列相似性低的新效应蛋白。近期,卷积神经网络(CNN)等多种机器学习方法开始应用于T4SE和non-T4SE的分类问题,然而它们的预测精度和运行速度仍有待提高。

细菌IV型分泌系统效应蛋白预测软件T4SEfinder的模型架构
TAPEBert_MLP主体结构由蛋白序列预训练语言模型(TAPEBert)和多层感知机分类器(MLP)组成
该论文将蛋白序列预训练语言模型(pre-trained protein language model)TAPEBert应用到T4SE分类任务中,开发了快速准确的T4SE预测软件T4SEfinder。首先,通过更新SecReT4数据库,T4SEfinder的训练集包含了来自21种细菌的518个经实验验证的T4SEs。其次,通过综合评估多种机器学习模型对T4SE的预测性能后,T4SEfinder采用了基于BERT的蛋白序列预训练方法TAPE(Task Assessing Protein Embeddings)以及多层感知机分类器(multi-layer perceptron,MLP)来搭建模型TAPEBert_MLP(上图);对于五折交叉验证和独立测试数据集,TAPEBert_MLP模型的预测准确率略优于常用的基于PSSM(位置特异性打分矩阵)和CNN的PSSM_CNN模型。最后,部署在一台RTX 2080 SUPERGPU服务器上的T4SEfinder能够在3分钟内完成5000条蛋白序列中T4SE和non-T4SE的分类,速度比PSSM_CNN方法快五十多倍。因此,T4SEfinder适用于细菌全基因组规模的T4SE识别问题,可能有助于实验发现病原菌的新效应蛋白。
论文链接:https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab420/6397152?login=true