基于词向量的领域情感词典构建
林江豪1,2,周咏梅1,2*,阳爱民1,2,陈锦1,31. 广东外语外贸大学语言工程与计算实验室, 广东 广州 510006;2. 广东外语外贸大学信息科学与技术学院, 广东 广州 510006;3. 广东外语外贸大学国际学院, 广东 广州 510420
收稿日期:
2017-08-23出版日期:
2018-06-20发布日期:
2017-08-23通讯作者:
周咏梅(1971— ),女,湖南永州人,硕士,教授,主要研究领域为文本情感分析,机器学习等. E-mail:yongmeizhou@163.comE-mail:lin_hao@foxmail.com作者简介:
林江豪(1985— ),男,广东揭阳人,硕士,助理研究员,主要研究领域为自然语言处理,文本情感分析. E-mail:lin_hao@foxmail.com基金资助:
教育部人文社会科学资助项目(14YJA740011);广东省教育厅科技创新资助项目(2013KJCX0067);广东省哲学社会科学“十二五”规划资助项目(GD15YTS01);广东省科技计划资助项目(2017A040406025);广东外语外贸大学教改资助项目(GWJY2017046)Building of domain sentiment lexicon based on word2vec
LIN Jianghao1,2, ZHOU Yongmei1,2*, YANG Aimin1,2, CHEN Jin1,31. Laboratory for Language Engineering and Computing, Guangdong University of Foreign Studies, Guangzhou 510006, Guangdong, China;
2. School of Information Science and Technology, Guangdong University of Foreign Studies, Guangzhou 510006, Guangdong, China;
3. International College, Guangdong University of Foreign Studies, Guangzhou 510420, Guangdong, China
Received:
2017-08-23Online:
2018-06-20Published:
2017-08-23摘要/Abstract
摘要: 针对现有领域情感词典在情感和语义表达等方面的不足,提出一种基于词向量的领域情感词典构建方法。利用25万篇新闻语料和10万余条酒店评论数据,训练得到word2vec模型;选择80个情感明显、内容丰富、词性多样化的情感词作为种子词集;利用TF-IDF值在词汇重要程度的度量作用,在酒店评论中获得9 860个领域候选情感词汇;通过计算候选情感词与种子词的词向量之间的语义相似度,将情感词映射到高维向量空间,实现了情感词的特征向量表示(Senti2vec)。将Senti2vec应用于情感词极性分类和文本情感分析任务中,试验结果表明,Senti2vec能实现情感词的语义表示和情感表示;基于特定领域语料的语义相似计算,使得提取的情感特征更具有领域特性,同时不受候选情感词集范围的约束。
PDF全文下载地址:
http://gxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=1733