基于word2vec词模型的中文短文本分类方法

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-02-06

基于word2vec词模型的中文短文本分类方法

高明霞(

),李经纬

北京工业大学信息学部, 北京 100124

收稿日期:2018-05-31出版日期:2019-04-20发布日期:2019-04-19

作者简介:高明霞(1973—)，女，河北张家口人，工程师，博士，主要研究方向为数据挖掘与知识工程.E-mail: gaomx@bjut.edu.cn
基金资助:北京市MRI和脑信息重点试验室基金(20160201);数字出版国家重点试验室基金(Q5007013201501);计算机学院院级科研项目(2018JSJKY008)

Chinese short text classification method based on word2vec embedding

Mingxia GAO(

),Jingwei LI

Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China

Received:2018-05-31Online:2019-04-20Published:2019-04-19

Supported by:北京市MRI和脑信息重点试验室基金(20160201);数字出版国家重点试验室基金(Q5007013201501);计算机学院院级科研项目(2018JSJKY008)

摘要/Abstract

摘要： 针对受字数限定影响的文本特征表达能力弱成为短文本分类中制约效果的主要问题,提出基于word2vec维基百科词模型的中文短文本分类方法(chinese short text classification method based on embedding trained by word2vec from wikipedia, CSTC-EWW),并针对新浪爱问4个主题的短文本集进行相关试验。首先训练维基百科语料库并获取word2vec词模型,然后建立基于此模型的短文本特征,通过SVM、贝叶斯等经典分类器对短文本进行分类。试验结果表明:本研究提出的方法可以有效进行短文本分类,最好情况下的F-度量值可达到81.8%;和词袋(bag-of-words, BOW)模型结合词频-逆文件频率(term frequency-inverse document frequency, TF-IDF)加权表达特征的短文本分类方法以及同样引入外来维基百科语料扩充特征的短文本分类方法相比,本研究分类效果更好,最好情况下的F-度量提高45.2%。

PDF全文下载地址:

http://gxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=1806

相关话题/基金 信息 计算机 中文 数字

领限时大额优惠券,享本站正版考研考试资料!
优惠券领取后72小时内有效，10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材，产品类型包含电子书、题库、全套资料以及视频，无论您是考研复习、考证刷题，还是考前冲刺等，不同类型的产品可满足您学习上的不同需求。 ...
考试优惠券本站小编 Free壹佰分学习网 2022-09-19
基于AlexNet和集成分类器的乳腺癌计算机辅助诊断方法
基于AlexNet和集成分类器的乳腺癌计算机辅助诊断方法侯霄雄1,2(),许新征1,2,(),朱炯1,郭燕燕11.中国矿业大学计算机科学与技术学院,江苏徐州2211162.广西高校复杂系统与智能计算重点实验室,广西南宁530006收稿日期:2018-07-06出版日期:2019-04-20发布日期: ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
中文反语识别特征分析
中文反语识别特征分析周荣翔(),贾修一()南京理工大学计算机科学与工程学院，江苏南京210094收稿日期:2018-08-13出版日期:2019-02-20发布日期:2019-03-01通讯作者:贾修一E-mail:zhourongxiang1@163.com;jiaxy@njust.edu.cn作 ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
基于卷积神经网络的中文财经新闻分类方法
基于卷积神经网络的中文财经新闻分类方法谢志峰1,2,吴佳萍1,马利庄2,31.上海大学影视工程系,上海200072;2.上海电影特效工程技术研究中心,上海200072;3.上海交通大学计算机科学与工程系,上海200240收稿日期:2017-08-29出版日期:2018-06-20发布日期:2017- ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
P-对偶信息的依赖与获取-发现
P-对偶信息的依赖与获取-发现郝秀梅,李明伟山东财经大学数学与数量经济学院,山东济南250014发布日期:2021-11-25作者简介:郝秀梅(1965—),女,博士,教授,研究方向为系统决策理论与方法.E-mail:hxm0912@126.comDependenceofP-dualinformat ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
正倒向随机最优控制问题的最大值原理:完全信息和部分信息
正倒向随机最优控制问题的最大值原理:完全信息和部分信息吴臻1*,王光臣2,李敏11.山东大学数学学院,山东济南250100;2.山东大学控制科学与工程学院,山东济南250061发布日期:2021-09-28作者简介:吴臻(1971—),男,博士,教授,博士生导师,研究方向为随机控制、正倒向随机微分方 ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
考虑信息平台影响的供应链联合研发策略研究
考虑信息平台影响的供应链联合研发策略研究孟庆春1,2,3,于宇1,2,3,金宗凯1,2,3,谢磊1,2,3*1.山东大学管理学院,山东济南250100;2.山东大学社会超网络计算与决策模拟实验室,山东济南250100;3.山东大学价值共创网络研究中心,山东济南250100发布日期:2021-09-2 ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
基于高斯分布和汉字组件特征的中文词表示学习
基于高斯分布和汉字组件特征的中文词表示学习易洁,钟茂生*,刘根,王明文江西师范大学计算机信息工程学院,江西南昌330022发布日期:2021-05-13作者简介:易洁(1998—),女,硕士研究生,研究方向为自然语言处理.E-mail:jyi@jxnu.edu.cn*通信作者简介:钟茂生(1974— ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
基于Paillier的同态加密域可逆信息隐藏
基于Paillier的同态加密域可逆信息隐藏张敏情(),周能(),刘蒙蒙,王涵,柯彦武警工程大学密码工程学院,网络与信息安全武警部队重点实验室,陕西西安710086收稿日期:2019-09-05出版日期:2020-03-20发布日期:2020-03-27通讯作者:周能E-mail:api_zmq@1 ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
支持隐私保护的社交网络信息推荐方法
支持隐私保护的社交网络信息推荐方法张超(),梁英(),方浩汕1.中国科学院计算技术研究所泛在计算系统研究中心,北京1001902.中国科学院大学人工智能学院,北京1000493.山东大学软件学院,山东济南250101收稿日期:2019-09-02出版日期:2020-03-20发布日期:2020-03 ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
不完备序信息系统下的局部双量化决策粗糙集研究
不完备序信息系统下的局部双量化决策粗糙集研究林艳丽,刘晓东*大连海事大学理学院,辽宁大连116026发布日期:2020-03-27作者简介:林艳丽(1992—),女,硕士研究生,研究方向为粒计算、数据处理、信息提取.E-mail:linyl@dlmu.edu.cn*通信作者简介:刘晓东(1963—) ...
山东大学科研学术本站小编 Free考研考试 2022-02-06