1(中国地质大学计算机学院 武汉 430074);2(智能地学信息处理湖北省重点实验室(中国地质大学) 武汉 430074) (wjzhang@cug.edu.cn)
出版日期:
2021-09-01基金资助:
国家自然科学基金联合基金重点项目(U1711267);中央高校基本科研业务费专项资金项目(CUGGC03)A Two-Layer Bayes Model: Random Forest Naive Bayes
Zhang Wenjun1, Jiang Liangxiao1,2, Zhang Huan1, Chen Long11(School of Computer Science, China University of Geosciences, Wuhan 430074);2(Hubei Key Laboratory of Intelligent Geo-Information Processing (China University of Geosciences), Wuhan 430074)
Online:
2021-09-01Supported by:
The work was supported by the Joint Fund Key Projects of the National Natural Science Foundation of China (U1711267) and the Fundamental Research Funds for the Central Universities (CUGGC03).摘要/Abstract
摘要: 文本分类是自然语言处理领域的一项基础工作.文本数据的高维性和稀疏性,给文本分类带来了许多问题和挑战.朴素贝叶斯模型因其简单、高效、易理解的特点被广泛应用于文本分类任务,但其属性条件独立假设在现实的文本数据中很难满足,从而影响了它的分类性能.为了削弱朴素贝叶斯的属性条件独立假设,****们提出了许多改进方法,主要包括结构扩展、实例选择、实例加权、特征选择、特征加权等.然而,所有这些方法都是基于独立的单词特征来构建朴素贝叶斯分类模型,在一定程度上限制了它们的分类性能.为此,尝试用特征学习的方法来改进朴素贝叶斯文本分类模型,提出了一种双层贝叶斯模型:随机森林朴素贝叶斯(random forest naive Bayes, RFNB).RFNB分为2层,第1层利用随机森林从原始的单词特征中学习单词组合的高层特征.然后将学习到的新特征输入第2层,经过一位有效编码后用于构建伯努利朴素贝叶斯模型.在大量广泛使用的文本数据集上的实验结果表明,提出的RFNB模型明显优于现有的最先进的朴素贝叶斯文本分类模型和其他经典的文本分类模型.
参考文献
相关文章 15
[1] | 翁泽佳, 陈静静, 姜育刚. 基于域对抗学习的可泛化虚假人脸检测方法研究[J]. 计算机研究与发展, 2021, 58(7): 1476-1489. |
[2] | 廖海斌, 徐斌. 基于性别和年龄因子分析的鲁棒性人脸表情识别[J]. 计算机研究与发展, 2021, 58(3): 528-538. |
[3] | 王继娜, 陈军华, 高建华. 基于排序损失的ECC多标签代码异味检测方法[J]. 计算机研究与发展, 2021, 58(1): 178-188. |
[4] | 刘烨, 黄金筱, 马于涛. 基于混合神经网络和注意力机制的软件缺陷自动分派方法[J]. 计算机研究与发展, 2020, 57(3): 461-473. |
[5] | 沈明珠, 刘辉. 面向技术论坛的问题解答状态预测[J]. 计算机研究与发展, 2020, 57(3): 474-486. |
[6] | 任家东,刘新倩,王倩,何海涛,赵小林. 基于KNN离群点检测和随机森林的多层入侵检测方法[J]. 计算机研究与发展, 2019, 56(3): 566-575. |
[7] | 冶忠林, 赵海兴, 张科, 朱宇, 肖玉芝. 基于邻节点和关系模型优化的网络表示学习[J]. 计算机研究与发展, 2019, 56(12): 2562-2577. |
[8] | 张飞,张立波,罗铁坚,武延军. 一种基于特征的协同聚类模型[J]. 计算机研究与发展, 2018, 55(7): 1508-1524. |
[9] | 贾熹滨,靳亚,陈军成. 多视角特征共享的空间对齐跨领域情感分类[J]. 计算机研究与发展, 2018, 55(11): 2439-2451. |
[10] | 李洪顺,于华,宫秀军. 一种只利用序列信息预测RNA结合蛋白的深度学习模型[J]. 计算机研究与发展, 2018, 55(1): 93-101. |
[11] | 顾佳伟,赵瑞玮,姜育刚. 视频拷贝检测方法综述[J]. 计算机研究与发展, 2017, 54(6): 1238-1250. |
[12] | 朱琛刚,程光,胡一非,王玉祥. 基于流行度预测的互联网+电视节目缓存调度算法[J]. 计算机研究与发展, 2016, 53(4): 742-751. |
[13] | 王俊华,左万利,闫昭. 基于朴素贝叶斯模型的单词语义相似度度量[J]. 计算机研究与发展, 2015, 52(7): 1499-1509. |
[14] | 祝军,赵杰煜,董振宇. 融合显著信息的层次特征学习图像分类[J]. 计算机研究与发展, 2014, 51(9): 1919-1928. |
[15] | 胡振, 傅昆, 张长水. 基于深度学习的作曲家分类问题[J]. 计算机研究与发展, 2014, 51(9): 1945-1954. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4500