删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法

本站小编 Free考研考试/2022-02-06

基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法

陈鑫1,2,薛云1,3*,卢昕1,李万理1,赵洪雅2,胡晓晖1
1.华南师范大学物理与电信工程学院, 广东 广州 510006;2.深圳职业技术学院, 广东 深圳 518055;3. 广东省数据科学工程技术研究中心, 广东 广州 510006
收稿日期:2017-07-04出版日期:2018-03-20发布日期:2018-03-13
通讯作者:薛云(1975— ),男,博士,教授,研究方向为自然语言处理、情感分析、个性化推荐. E-mail:xueyun@scnu.edu.cnE-mail:chenxin@m.scnu.edu.cn
作者简介:陈鑫(1992— ),男,硕士研究生,研究方向为自然语言处理、情感分析、个性化推荐. E-mail:chenxin@m.scnu.edu.cn
基金资助:全国统计科学研究项目(2016LY98);广东省科技计划项目(2016A010101020,2016A010101021,2016A010101022);深圳市科创委基础研究项目(JCYJ20160527172144272);广东省数据科学工程技术研究中心课题项目(2016KF09,2016KFl0);广东科学技术职业学院科研项目(XJSC2016206);华南师范大学研究生创新计划资助项目(2015lkxm37)

Text feature extraction method for sentiment analysis based on order-preserving submatrix and frequent sequential pattern mining

CHEN Xin1,2, XUE Yun1,3*, LU Xin1, LI Wan-li1, ZHAO Hong-ya2, HU Xiao-hui1
1. School of Physics and Telecommunication Engineering, South China Normal University, Guangdong 510006, Guangzhou, China;
2. Shenzhen PolyTechnic, Shenzhen 518055, Guangdong, China;
3. Guangdong Provincial Engineering Technology Research Center for Data Science, Guangdong 510006, Guangzhou, China
Received:2017-07-04Online:2018-03-20Published:2018-03-13







摘要/Abstract


摘要: 特征提取是进行文本情感分析的关键步骤之一,是影响其结果好坏的主要因素。针对网络评论语句中表达形式多变的特点,结合语义相似度计算得到近义词TF-IDF(term frequency—inverse document frequency)权重向量;根据评论语句长短不一的特点,基于OPSM(order-preserving submatrix)双聚类算法挖掘出权重向量中的局部模式;使用改进的PrefixSpan算法挖掘分类频繁短语特征,这类特征能有效利用词语的顺序信息,同时也通过词语间隔等限制来提升频繁短语区分情感倾向的能力。最后将该方法用于处理商品评论语料,并进行情感分析任务实验,结果表明所提取的文本特征效果有较大的提升。


PDF全文下载地址:

http://lxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2927
相关话题/广东 深圳 广州 数据 科学