混合采样与遗传算法相结合的垃圾网页检测
刘寒1. 北京邮电大学 软件学院, 北京 100876;
2. 北京邮电大学 可信分布式计算与服务教育部重点实验室, 北京 100876
收稿日期:
2019-11-22出版日期:
2019-12-28发布日期:
2019-11-15作者简介:
刘寒(1997-),女,硕士生,E-mail:liu_han@bupt.edu.cn.基金资助:
国家重点研发计划项目(2017YFC1307705)Spam Web Detection Based on Hybrid-Sampling and Genetic Algorithm
LIU Han1. School of Software Engineering, Beijing University of Posts and Telecommunications, Beijing 100876, China;
2. Key Laboratory of Trustworthy Distributed Computing and Service(Beijing University of Posts and Telecommunications), Ministry of Education, Beijing 100876, China
Received:
2019-11-22Online:
2019-12-28Published:
2019-11-15摘要/Abstract
摘要: 垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19.25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法.
中图分类号:
TP181
引用本文
刘寒. 混合采样与遗传算法相结合的垃圾网页检测[J]. 北京邮电大学学报, 2019, 42(6): 111-117.
LIU Han. Spam Web Detection Based on Hybrid-Sampling and Genetic Algorithm[J]. JOURNAL OF BEIJING UNIVERSITY OF POSTS AND TELECOM, 2019, 42(6): 111-117.
PDF全文下载地址:
https://journal.bupt.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4597