删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种双层贝叶斯模型:随机森林朴素贝叶斯

本站小编 Free考研考试/2022-01-01

张文钧1,蒋良孝1,2,张欢1,陈龙1
1(中国地质大学计算机学院 武汉 430074);2(智能地学信息处理湖北省重点实验室(中国地质大学) 武汉 430074) (wjzhang@cug.edu.cn)
出版日期: 2021-09-01


基金资助:国家自然科学基金联合基金重点项目(U1711267);中央高校基本科研业务费专项资金项目(CUGGC03)

A Two-Layer Bayes Model: Random Forest Naive Bayes

Zhang Wenjun1, Jiang Liangxiao1,2, Zhang Huan1, Chen Long1
1(School of Computer Science, China University of Geosciences, Wuhan 430074);2(Hubei Key Laboratory of Intelligent Geo-Information Processing (China University of Geosciences), Wuhan 430074)
Online: 2021-09-01


Supported by:The work was supported by the Joint Fund Key Projects of the National Natural Science Foundation of China (U1711267) and the Fundamental Research Funds for the Central Universities (CUGGC03).




摘要/Abstract


摘要: 文本分类是自然语言处理领域的一项基础工作.文本数据的高维性和稀疏性,给文本分类带来了许多问题和挑战.朴素贝叶斯模型因其简单、高效、易理解的特点被广泛应用于文本分类任务,但其属性条件独立假设在现实的文本数据中很难满足,从而影响了它的分类性能.为了削弱朴素贝叶斯的属性条件独立假设,****们提出了许多改进方法,主要包括结构扩展、实例选择、实例加权、特征选择、特征加权等.然而,所有这些方法都是基于独立的单词特征来构建朴素贝叶斯分类模型,在一定程度上限制了它们的分类性能.为此,尝试用特征学习的方法来改进朴素贝叶斯文本分类模型,提出了一种双层贝叶斯模型:随机森林朴素贝叶斯(random forest naive Bayes, RFNB).RFNB分为2层,第1层利用随机森林从原始的单词特征中学习单词组合的高层特征.然后将学习到的新特征输入第2层,经过一位有效编码后用于构建伯努利朴素贝叶斯模型.在大量广泛使用的文本数据集上的实验结果表明,提出的RFNB模型明显优于现有的最先进的朴素贝叶斯文本分类模型和其他经典的文本分类模型.






[1]翁泽佳, 陈静静, 姜育刚. 基于域对抗学习的可泛化虚假人脸检测方法研究[J]. 计算机研究与发展, 2021, 58(7): 1476-1489.
[2]廖海斌, 徐斌. 基于性别和年龄因子分析的鲁棒性人脸表情识别[J]. 计算机研究与发展, 2021, 58(3): 528-538.
[3]王继娜, 陈军华, 高建华. 基于排序损失的ECC多标签代码异味检测方法[J]. 计算机研究与发展, 2021, 58(1): 178-188.
[4]刘烨, 黄金筱, 马于涛. 基于混合神经网络和注意力机制的软件缺陷自动分派方法[J]. 计算机研究与发展, 2020, 57(3): 461-473.
[5]沈明珠, 刘辉. 面向技术论坛的问题解答状态预测[J]. 计算机研究与发展, 2020, 57(3): 474-486.
[6]任家东,刘新倩,王倩,何海涛,赵小林. 基于KNN离群点检测和随机森林的多层入侵检测方法[J]. 计算机研究与发展, 2019, 56(3): 566-575.
[7]冶忠林, 赵海兴, 张科, 朱宇, 肖玉芝. 基于邻节点和关系模型优化的网络表示学习[J]. 计算机研究与发展, 2019, 56(12): 2562-2577.
[8]张飞,张立波,罗铁坚,武延军. 一种基于特征的协同聚类模型[J]. 计算机研究与发展, 2018, 55(7): 1508-1524.
[9]贾熹滨,靳亚,陈军成. 多视角特征共享的空间对齐跨领域情感分类[J]. 计算机研究与发展, 2018, 55(11): 2439-2451.
[10]李洪顺,于华,宫秀军. 一种只利用序列信息预测RNA结合蛋白的深度学习模型[J]. 计算机研究与发展, 2018, 55(1): 93-101.
[11]顾佳伟,赵瑞玮,姜育刚. 视频拷贝检测方法综述[J]. 计算机研究与发展, 2017, 54(6): 1238-1250.
[12]朱琛刚,程光,胡一非,王玉祥. 基于流行度预测的互联网+电视节目缓存调度算法[J]. 计算机研究与发展, 2016, 53(4): 742-751.
[13]王俊华,左万利,闫昭. 基于朴素贝叶斯模型的单词语义相似度度量[J]. 计算机研究与发展, 2015, 52(7): 1499-1509.
[14]祝军,赵杰煜,董振宇. 融合显著信息的层次特征学习图像分类[J]. 计算机研究与发展, 2014, 51(9): 1919-1928.
[15]胡振, 傅昆, 张长水. 基于深度学习的作曲家分类问题[J]. 计算机研究与发展, 2014, 51(9): 1945-1954.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4500
相关话题/计算机 数据 信息 网络 基础

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于K阶互信息估计的位置感知网络表征学习
    储晓恺1,2,范鑫鑫2,毕经平21(中国科学院大学北京100049);2(中国科学院计算技术研究所北京100190)(chuxiaokai@ict.ac.cn)出版日期:2021-08-01基金资助:国家自然科学基金项目(62077044,61702470,62002343)Position-Awa ...
    本站小编 Free考研考试 2022-01-01
  • 基于病毒传播网络的基因序列表示学习
    马扬,刘泽一,梁星星,程光权,阳方杰,成清,刘忠(国防科技大学系统工程学院长沙410073)(yang_ma_cn@163.com)出版日期:2021-08-01基金资助:国家自然科学基金项目(62073333);湖南省研究生科研创新项目(CX20200069)GeneSequenceReprese ...
    本站小编 Free考研考试 2022-01-01
  • 基于非递减时序随机游走的动态异质网络嵌入
    郭佳雯1,2,白淇介1,2,林铸天1,宋春瑶1,2,袁晓洁1,21(南开大学网络空间安全学院天津300350);2(天津市网络与数据安全技术重点实验室(南开大学)天津300350)(guojiawen@dbis.nankai.edu.cn)出版日期:2021-08-01基金资助:国家自然科学基金项目 ...
    本站小编 Free考研考试 2022-01-01
  • 基于融合多尺度标记信息的深度交互式图像分割
    丁宗元1,孙权森1,王涛1,王洪元21(南京理工大学计算机科学与技术学院南京210094);2(常州大学计算机与人工智能学院江苏常州213164)(dzyha2011@163.com)出版日期:2021-08-01基金资助:国家自然科学基金项目(61802188,61673220,61976028) ...
    本站小编 Free考研考试 2022-01-01
  • 基于孪生BERT网络的科技文献类目映射
    何贤敏1,李茂西1,何彦青21(江西师范大学计算机信息工程学院南昌330022);2(中国科学技术信息研究所北京100038)(xianminhe@jxnu.edu.cn)出版日期:2021-08-01基金资助:国家自然科学基金项目(61662031);中国科学技术信息研究所重点工作项目(ZD202 ...
    本站小编 Free考研考试 2022-01-01
  • 网络信息生态系统中的虚假信息:检测、缓解与挑战
    Amrita,Bhattacharjee1,舒凯2,高旻3,刘欢11(亚利桑那州立大学计算机科学与工程系美国亚利桑那州坦佩85281);2(伊利诺伊理工大学计算机科学系美国伊利诺伊州芝加哥60616);3(重庆大学大数据与软件学院重庆400044)(abhatt43@asu.edu)出版日期:202 ...
    本站小编 Free考研考试 2022-01-01
  • 虚假信息检测专题前言
    出版日期:2021-07-01Online:2021-07-01摘要/Abstract摘要:虚假信息检测旨在综合应用自然语言处理、社交挖掘、跨模态分析等智能处理手段,发现并利用信息的内在特征、产生机理与传播规律,为以假新闻为代表的虚假、伪造信息的识别与干预提供理论和技术支持.《Science》在20 ...
    本站小编 Free考研考试 2022-01-01
  • 基于模体度的社交网络虚假信息传播机制研究
    徐铭达1,张子柯2,3,许小可11(大连民族大学信息与通信工程学院辽宁大连116600);2(浙江大学传媒与国际文化学院杭州310058);3(杭州师范大学阿里巴巴复杂科学研究中心杭州311121)(854655253@qq.com)出版日期:2021-07-01基金资助:国家自然科学基金项目(61 ...
    本站小编 Free考研考试 2022-01-01
  • 融合源信息和门控图神经网络的谣言检测研究
    杨延杰,王莉,王宇航(太原理工大学大数据学院山西晋中030600)(yangyanjie1073@link.tyut.edu.cn)出版日期:2021-07-01基金资助:国家自然科学基金项目(61872260)RumorDetectionBasedonSourceInformationandGat ...
    本站小编 Free考研考试 2022-01-01
  • 基于全局-时频注意力网络的语音伪造检测
    王成龙1,2,易江燕2,陶建华2,3,马浩鑫2,田正坤2,傅睿博21(中国科学技术大学信息科学技术学院合肥230027);2(模式识别国家重点实验室(中国科学院自动化研究所)北京100080);3(中国科学院大学人工智能学院北京100049)(chenglong.wang@nlpr.ia.ac.cn ...
    本站小编 Free考研考试 2022-01-01