基于属性主题分割的评论短文本词向量构建优化算法
外文标题:Improving the Word2vec on Short Text by Topic:Partition
文献类型:期刊
作者:李志宇[1]
机构:[1]中国人民大学信息学院
[2]中国人民大学信息学院
[3]中国人民大学信息学院
年:2016
期刊名称:中文信息学报
卷:30
期:5
页码范围:101
增刊:正刊
收录情况:中文核心期刊要目总览
所属部门:信息学院
语言:中文
ISSN:1003-0077
基金:国家自然科学基金; 京东商城电子商务研究项目; 北京市自然科学基金; 中国人民大学品牌计划; 中国人民大学2015年度拔尖创新人才培育资助计划成果资助
关键词:在线评论; 短文本; 词向量; 相似度计算
摘要:从词向量的训练模式入手,研究了基于语料语句分割(BWP)算法,分隔符分割(BSP)算法以及属性主题分割(BTP)算法三种分割情况下的词向量训练结 果的优劣。研究发现,由于评论短文本的自身特征,传统的无分割(NP)训练方法,在词向量训练结果的准确率和相似度等方面与BWP算法、BSP算法以及B TP算法具有明显的差异。通过对0.7亿条评论短文本进行词向量构建实验对比后发现,该文所提出的BTP算法在同义词(属性词)测试任务上获得的结果是最 佳的,因此BTP算法对于优化评论短文本词向量的训练,评论短文本属性词的抽取以及情感倾向分析等在内的,以词向量为基础的应用研究工作具有较为重要的实 践意义。同时,该文在超大规模评论语料集上构建的词向量(开源)对于其他商品评论文本分析的应用任务具有较好可用性。
作者其他论文
基于R-C模型的微博用户社区发现?.周小平;梁循;张海燕.软件学报.2014,2808-2823.
马氏距离多核支持向量机学习模型.张凯军;梁循.计算机工程.2014,40(6),219-224.
基于移动互联网日志的搜索引擎用户行为研究.万飞;赵溪;梁循,等.中文信息学报.2014,28(2),144-150.
一种改进的显性多核支持向量机.张凯军;梁循.自动化学报.2014,2288-2294.
基于关键词提取和基尼系数的微博用户分类方法.施晓菁;梁循;张海燕.2013.