基于多维相似度和情感词扩充的相同产品特征识别
胡龙茂1,2(![](http://gxbwk.njournal.sdu.edu.cn/images/email.png)
![](http://gxbwk.njournal.sdu.edu.cn/images/email.png)
1. 合肥工业大学计算机与信息学院,安徽 合肥 230601
2. 安徽财贸职业学院,安徽 合肥 230601
收稿日期:
2019-07-17出版日期:
2020-04-20发布日期:
2020-04-16通讯作者:
胡学钢E-mail:hulongmao@163.com;jsjxhuxg@hfut.edu.cn作者简介:
胡龙茂(1973—),男,安徽太湖人,工学硕士,副教授,主要研究方向为自然语言处理. E-mail:基金资助:
国家自然科学基金项目(61673152);安徽省高校自然科学研究重点项目(KJ2017A858)Identification of the same product feature based on multi-dimension similarity and sentiment word expansion
Longmao HU1,2(![](http://gxbwk.njournal.sdu.edu.cn/images/email.png)
![](http://gxbwk.njournal.sdu.edu.cn/images/email.png)
1. School of Computer and Information, Hefei University of Technology, Hefei 230601, Anhui, China
2. Anhui Finance and Trade Vocational College, Hefei 230601, Anhui, China
Received:
2019-07-17Online:
2020-04-20Published:
2020-04-16Contact:
Xuegang HU E-mail:hulongmao@163.com;jsjxhuxg@hfut.edu.cnSupported by:
国家自然科学基金项目(61673152);安徽省高校自然科学研究重点项目(KJ2017A858)摘要/Abstract
摘要: 针对现有相同产品特征识别方法受限于词典覆盖率或语料规模的不足,提出一种基于多维相似度和情感词扩充的识别方法。通过双向长短时记忆条件随机场(bi-directional long short-term memory and conditional random field, Bi-LSTM-CRF)模型抽取产品特征的扩充情感词,综合特征词的语素相似度、同义词林相似度和TF-IDF(term frequency-inverse document frequency)余弦相似度,采用K-medoids聚类算法,识别相同的产品特征。试验结果表明,在手机和笔记本数据集上,该方法的最大调整兰德指数分别达到0.579和0.595 9,而最小熵值分别达到0.782 6和0.745 7,均优于结合语素的调整Jaccard相似度、Word2Vec相似度和基于二分K-means的Word2Vec相似度三种基线试验方法。
PDF全文下载地址:
http://gxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=1909