面向短文本情感分析的词扩充LDA模型
沈冀,马志强*,李图雅,张力内蒙古工业大学信息工程学院, 内蒙古 呼和浩特 010080
收稿日期:
2017-05-09出版日期:
2018-06-20发布日期:
2017-05-09通讯作者:
马志强(1972— ),男,内蒙古自治区呼和浩特人,副教授,主要研究方向为语音识别,机器学习. E-mail:675898486@qq.comE-mail:2247935158@qq.com作者简介:
沈冀(1994— ),男,江苏徐州人,硕士研究生,主要研究方向为自然语言处理,机器学习. E-mail:2247935158@qq.com基金资助:
国家自然科学基金资助项目(61650205);内蒙古自治区自然科学基金资助项目(2014MS0608)A word extend LDA model for short text sentiment
SHEN Ji, MA Zhiqiang*, LI Tuya, ZHANG LiCollege of Information Engineering, Inner Mongolia University of Technology, Hohhot 010080, Inner Mongolia, China
Received:
2017-05-09Online:
2018-06-20Published:
2017-05-09摘要/Abstract
摘要: 针对短文本在情感极性判断上准确率不高的缺点,在隐含狄利克雷分配(latent Dirichlet allocation, LDA)的基础上提出一种适用于短文本的情感分析模型。该模型在短文本中按词性寻找情感词汇,并对其进行有约束的词语扩充形成扩充集合,增强情感词汇之间的共现频率。将扩充集合加入文本中已发现的情感词汇,使得短文本长度增加并且模型可以提取到情感信息,模型通过这种方法将主题聚类变成情感主题聚类。该模型使用4 000条带有正负情感极性的短文本进行验证,结果表明该模型准确率比情感主题联合模型提高约11%,比隐含情感模型提高约9.5%,同时可以发现更多的情感词汇,证明该模型对于短文本能够提取更丰富的情感特征并在情感极性分类上准确率较高。
PDF全文下载地址:
http://gxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=1745