基于word2vec词模型的中文短文本分类方法
高明霞(),李经纬北京工业大学信息学部, 北京 100124
收稿日期:
2018-05-31出版日期:
2019-04-20发布日期:
2019-04-19作者简介:
高明霞(1973—),女,河北张家口人,工程师,博士,主要研究方向为数据挖掘与知识工程.E-mail: 基金资助:
北京市MRI和脑信息重点试验室基金(20160201);数字出版国家重点试验室基金(Q5007013201501);计算机学院院级科研项目(2018JSJKY008)Chinese short text classification method based on word2vec embedding
Mingxia GAO(),Jingwei LIFaculty of Information Technology, Beijing University of Technology, Beijing 100124, China
Received:
2018-05-31Online:
2019-04-20Published:
2019-04-19Supported by:
北京市MRI和脑信息重点试验室基金(20160201);数字出版国家重点试验室基金(Q5007013201501);计算机学院院级科研项目(2018JSJKY008)摘要/Abstract
摘要: 针对受字数限定影响的文本特征表达能力弱成为短文本分类中制约效果的主要问题,提出基于word2vec维基百科词模型的中文短文本分类方法(chinese short text classification method based on embedding trained by word2vec from wikipedia, CSTC-EWW),并针对新浪爱问4个主题的短文本集进行相关试验。首先训练维基百科语料库并获取word2vec词模型,然后建立基于此模型的短文本特征,通过SVM、贝叶斯等经典分类器对短文本进行分类。试验结果表明:本研究提出的方法可以有效进行短文本分类,最好情况下的F-度量值可达到81.8%;和词袋(bag-of-words, BOW)模型结合词频-逆文件频率(term frequency-inverse document frequency, TF-IDF)加权表达特征的短文本分类方法以及同样引入外来维基百科语料扩充特征的短文本分类方法相比,本研究分类效果更好,最好情况下的F-度量提高45.2%。
PDF全文下载地址:
http://gxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=1806