删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

混合采样与遗传算法相结合的垃圾网页检测

本站小编 Free考研考试/2021-12-25

混合采样与遗传算法相结合的垃圾网页检测

刘寒
1. 北京邮电大学 软件学院, 北京 100876;
2. 北京邮电大学 可信分布式计算与服务教育部重点实验室, 北京 100876
收稿日期:2019-11-22出版日期:2019-12-28发布日期:2019-11-15

作者简介:刘寒(1997-),女,硕士生,E-mail:liu_han@bupt.edu.cn.
基金资助:国家重点研发计划项目(2017YFC1307705)

Spam Web Detection Based on Hybrid-Sampling and Genetic Algorithm

LIU Han
1. School of Software Engineering, Beijing University of Posts and Telecommunications, Beijing 100876, China;
2. Key Laboratory of Trustworthy Distributed Computing and Service(Beijing University of Posts and Telecommunications), Ministry of Education, Beijing 100876, China
Received:2019-11-22Online:2019-12-28Published:2019-11-15







摘要/Abstract


摘要: 垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19.25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法.
中图分类号:
TP181

引用本文



刘寒. 混合采样与遗传算法相结合的垃圾网页检测[J]. 北京邮电大学学报, 2019, 42(6): 111-117.
LIU Han. Spam Web Detection Based on Hybrid-Sampling and Genetic Algorithm[J]. JOURNAL OF BEIJING UNIVERSITY OF POSTS AND TELECOM, 2019, 42(6): 111-117.





PDF全文下载地址:

https://journal.bupt.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4597
相关话题/数据 遗传 北京邮电大学 北京 技术

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于D-S证据理论的嵌入式固件Web代码静态漏洞检测技术
    基于D-S证据理论的嵌入式固件Web代码静态漏洞检测技术王思琪1,2,缪思薇3,张小玲1,2,石志强1,2,卢新岱41.中国科学院信息工程研究所,北京100093;2.中国科学院大学网络空间安全学院,北京100049;3.中国电力科学研究院有限公司,北京100192;4.国网浙江省电力有限公司电力科 ...
    本站小编 Free考研考试 2021-12-25
  • 基于出租车轨迹数据的车联网通信机会间隔模型
    基于出租车轨迹数据的车联网通信机会间隔模型皇甫伟1,2,杨心竹1,王欢1,2,胡晓彦31.北京科技大学计算机与通信工程学院人工智能研究院,北京100083;2.北京市融合网络与泛在业务工程技术研究中心,北京100083;3.中国移动通信集团设计院有限公司,北京100080收稿日期:2018-09-1 ...
    本站小编 Free考研考试 2021-12-25
  • 基于改进DeepLabv3+的拼接篡改定位检测技术
    基于改进DeepLabv3+的拼接篡改定位检测技术张继威,牛少彰,曹志义,王心怡北京邮电大学智能通信软件与多媒体北京市重点实验室,北京100876收稿日期:2018-09-24出版日期:2019-02-28发布日期:2019-03-08通讯作者:牛少彰(1963-),男,教授,博士生导师,E-mai ...
    本站小编 Free考研考试 2021-12-25
  • 基于空间信道控制方式的频谱感知资源分配技术
    基于空间信道控制方式的频谱感知资源分配技术谢朝臣1,谭晓衡1,2,刘琴1,杨志军1,刘玉川11.重庆大学微电子与通信工程学院,重庆400044;2.重庆生物感知与智能信息处理重点实验室,重庆400044收稿日期:2018-07-07出版日期:2019-02-28发布日期:2019-03-08作者简介 ...
    本站小编 Free考研考试 2021-12-25
  • 数据定价机制现状及发展趋势
    数据定价机制现状及发展趋势彭慧波,周亚建北京邮电大学网络空间安全学院,北京100876收稿日期:2018-05-25出版日期:2019-02-28发布日期:2019-03-08通讯作者:周亚建(1971-),男,副教授,E-mail:yajian@bupt.edu.cn.E-mail:yajian@ ...
    本站小编 Free考研考试 2021-12-25
  • 融合多源异构数据的混合推荐模型
    融合多源异构数据的混合推荐模型冀振燕,皮怀雨,姚伟娜北京交通大学软件学院,北京100044收稿日期:2018-08-04出版日期:2019-02-28发布日期:2019-03-08作者简介:冀振燕(1972-),女,副教授,E-mail:zhyji@bjtu.edu.cn.基金资助:国家自然科学基金 ...
    本站小编 Free考研考试 2021-12-25
  • 面向5G的定位技术研究综述
    面向5G的定位技术研究综述张平,陈昊北京邮电大学网络与交换技术国家重点实验室,北京100876收稿日期:2018-08-09出版日期:2018-10-28发布日期:2018-11-20作者简介:张平(1959-),男,教授,博士生导师,E-mail:pzhang@bupt.edu.cn;陈昊(198 ...
    本站小编 Free考研考试 2021-12-25
  • 5G蜂窝物联网关键技术分析
    5G蜂窝物联网关键技术分析易芝玲,崔春风,韩双锋,潘成康,陈亚迷中国移动通信研究院,北京100053收稿日期:2018-08-11出版日期:2018-10-28发布日期:2018-11-20作者简介:易芝玲(1957-),女,"****"专家,E-mail:icl@chinamobile.com.基 ...
    本站小编 Free考研考试 2021-12-25
  • 面向5G大连接场景的eMTC技术解析
    面向5G大连接场景的eMTC技术解析温向明,潘奇,路兆铭,景文鹏,李琳佩1.北京邮电大学网络体系构建与融合北京市重点实验室,北京100876;2.北京邮电大学先进信息网络北京实验室,北京100876收稿日期:2018-08-06出版日期:2018-10-28发布日期:2018-11-20作者简介:温 ...
    本站小编 Free考研考试 2021-12-25
  • B5G系统中基于无线大数据的新兴技术
    B5G系统中基于无线大数据的新兴技术张四海1,张建华2,陈颖3,朱近康11.中国科学技术大学中国科学院无线光电通信重点实验室,合肥230027;2.北京邮电大学网络与交换技术国家重点实验室,北京100876;3.浙江大学信息与电子工程学院英国约克大学-浙江大学认知网络与绿色通信联合实验室,杭州310 ...
    本站小编 Free考研考试 2021-12-25