(山西大学计算机与信息技术学院 太原 030006) (计算智能与中文信息处理教育部重点实验室(山西大学) 太原 030006) (ljy@sxu.edu.cn)
出版日期:
2018-08-01基金资助:
国家自然科学基金项目(U1435212,61432011,61573229);山西省重点科技攻关项目(MQ2014-09) This work was supported by the National Natural Science Foundation of China (U1435212, 61432011, 61573229) and the Key Scientific and Technological Project of Shanxi Province (MQ2014-09).A Distributed Representation Model for Short Text Analysis
Liang Jiye, Qiao Jie, Cao Fuyuan,Liu Xiaolin(School of Computer and Information Technology, Shanxi University, Taiyuan 030006) (Key Laboratory of Computational Intelligence and Chinese Information Processing (Shanxi University), Ministry of Education, Taiyuan 030006)
Online:
2018-08-01摘要/Abstract
摘要: 短文本的分布式表示已经成为文本数据挖掘的一项重要任务.然而,直接应用分布式表示模型Paragraph Vector尚有不足,其根本原因是其在训练过程中并没有利用到语料库级别的信息,从而不能有效改善短文本中语境信息不足的情况.鉴于此,提出了一种面向短文本分析的分布式表示模型——词对主题句向量模型(biterm topic paragraph vector, BTPV),该模型通过将词对主题模型(biterm topic model, BTM)得出的主题信息融入Paragraph Vector中,不仅使得模型训练过程中利用到了全局语料库的信息,而且还利用BTM显性的主题表示完善了Paragraph Vector隐性的空间向量.实验采用爬取到的热门新闻评论作为数据集,并选用K-Means聚类算法对各模型的短文本表示效果进行比较.实验结果表明,基于BTPV模型的分布式表示较常见的分布式向量化模型word2vec和Paragraph Vector来说能取得更好的短文本聚类效果,从而显现出该模型面向短文本分析的优势.
参考文献
相关文章 4
[1] | 崔婉秋,杜军平,寇菲菲,李志坚,LeeJangMyung. 面向微博短文本的社交与概念化语义扩展搜索方法[J]. 计算机研究与发展, 2018, 55(8): 1641-1652. |
[2] | 刘知远,孙茂松,林衍凯,谢若冰. 知识表示学习研究进展[J]. 计算机研究与发展, 2016, 53(2): 247-261. |
[3] | 王仲远,程健鹏,王海勋,文继荣. 短文本理解研究[J]. 计算机研究与发展, 2016, 53(2): 262-269. |
[4] | 彭敏, 黄佳佳, 朱佳晖, 黄济民, 刘纪平. 基于频繁项集的海量短文本聚类与主题抽取[J]. 计算机研究与发展, 2015, 52(9): 1941-1953. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3742