基于随机森林算法识别基因间长非编码RNA
徐炜娜*(),张广乐,李仕红,陈园园,李强,杨涛,许明敏,乔宁,张良云()南京农业大学理学院, 江苏 南京 210095
收稿日期:
2018-05-15出版日期:
2019-03-01发布日期:
2019-03-19通讯作者:
徐炜娜E-mail:2015111001@njau.edu.cn;zlyun@njau.edu.cn作者简介:
张良云(1965—),男,博士,教授,研究方向为计算生物信息学. E-mail: 基金资助:
国家自然科学基金资助项目(11571173);国家自然科学基金资助项目(11401311);国家自然科学基金资助项目(11601231)Identification of large intergenic non-coding RNAs using random forest
Wei-na XU*(),Guang-le ZHANG,Shi-hong LI,Yuan-yuan CHEN,Qiang LI,Tao YANG,Ming-min XU,Ning QIAO,Liang-yun ZHANG()College of Science, Nanjing Agricultural University, Nanjing 210095, Jiangsu, China
Received:
2018-05-15Online:
2019-03-01Published:
2019-03-19Contact:
Wei-na XU E-mail:2015111001@njau.edu.cn;zlyun@njau.edu.cnSupported by:
国家自然科学基金资助项目(11571173);国家自然科学基金资助项目(11401311);国家自然科学基金资助项目(11601231)摘要/Abstract
摘要: 为了深入了解和探索lincRNA的调控机制,建立了lincRNA高效识别模型,有助于为后续研究提供数据源。依据最小自由能(minimum free energy, MFE)和信噪比(signal-noise ratio, SNR)等特征,并通过特征贡献度大小剔除冗余特征,构建随机森林(random forest, RF)分类模型,有效地识别lincRNAs。经检验,模型的灵敏度、特异性和精确度分别达到94.1%、93.2%和93.7%,高于现有PhyloCSF、LncRNA-ID和CPC方法的各项识别指标。模型在识别过程中表现出较好的鲁棒性,可准确识别lincRNA。
PDF全文下载地址:
http://lxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3051