基于双层堆叠分类模型的水军评论检测
廖祥文1,2,3,*(),徐阳1,2,3,魏晶晶4,杨定达1,2,3,陈国龙1,2,31. 福州大学数学与计算机科学学院, 福建 福州 350116
2. 福州大学福建省网络计算与智能信息处理重点实验室, 福建 福州 350116
3. 数字福建金融大数据研究所, 福建 福州 350116
4. 福建江夏学院电子信息科学学院, 福建 福州 350108
收稿日期:
2018-10-17出版日期:
2019-07-20发布日期:
2019-06-27通讯作者:
廖祥文E-mail:liaoxw@fzu.edu.cn作者简介:
廖祥文(1980—),男,博士,副教授,研究方向为信息检索、观点挖掘和情感分析、自然语言处理. E-mail:基金资助:
国家自然科学基金资助项目(61772135);国家自然科学基金资助项目(U1605251);福建省自然科学基金资助项目(2017J01755);中国科学院网络数据科学与技术重点实验室开放基金课题(CASNDST201708);中国科学院网络数据科学与技术重点实验室开放基金课题(CASNDST201606);北邮可信分布式计算与服务教育部重点实验室主任基金资助(2017KF01)Review spam detection based on the two-level stacking classification model
Xiang-wen LIAO1,2,3,*(),Yang XU1,2,3,Jing-jing WEI4,Ding-da YANG1,2,3,Guo-long CHEN1,2,31. College of Mathematics and Computer Science, Fuzhou University, Fuzhou 350116, Fujian, China
2. Fujian Provincial Key Laboratory of Network Computing and Intelligent Information Processing, Fuzhou University, Fuzhou 350116, Fujian, China
3. Digital Fujian Institute of Financial Big Data, Fuzhou 350116, Fujian, China
4. College of Electronics and Information Science, Fujian Jiangxia University, Fuzhou 350108, Fujian, China
Received:
2018-10-17Online:
2019-07-20Published:
2019-06-27Contact:
Xiang-wen LIAO E-mail:liaoxw@fzu.edu.cnSupported by:
国家自然科学基金资助项目(61772135);国家自然科学基金资助项目(U1605251);福建省自然科学基金资助项目(2017J01755);中国科学院网络数据科学与技术重点实验室开放基金课题(CASNDST201708);中国科学院网络数据科学与技术重点实验室开放基金课题(CASNDST201606);北邮可信分布式计算与服务教育部重点实验室主任基金资助(2017KF01)摘要/Abstract
摘要: 对于水军评论检测问题,已有方法在提取用户行为关系以及通过神经网络提取特征时复杂度过大,同时由于网络评论属于短文本类,其书写的不规范会导致训练过程中文本特征提取困难;另外,已有方法对数据集不平衡分布情况考虑不足。为此,提出了一种基于双层堆叠分类模型的水军评论检测方法。首先通过三元组形式构造矩阵表示用户间关系,并通过主成分分析得到低维用户关系表示,以此刻画用户在评论数据中的行为差异并且降低计算的复杂度;然后,通过评论的段落向量表示以及计算离散型特征(包括文本相似度、信息熵等)解决文本特征难以提取的问题;最后将三者相联结作为融合文本与行为特征的整体特征表示。利用集成学习的方法构造双层堆叠分类模型对评论分类,以提升模型在非平衡数据集下的检测性能。实验采用Yelp2013评论数据集,结果表明,与目前最好的基准方法对比, F1值提高了1.7%~5.2%,在非平衡数据集中提升尤为明显。
PDF全文下载地址:
http://lxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3114