删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

面向短文本分析的分布式表示模型

本站小编 Free考研考试/2022-01-01

梁吉业,乔洁,曹付元,刘晓琳
(山西大学计算机与信息技术学院 太原 030006) (计算智能与中文信息处理教育部重点实验室(山西大学) 太原 030006) (ljy@sxu.edu.cn)
出版日期: 2018-08-01


基金资助:国家自然科学基金项目(U1435212,61432011,61573229);山西省重点科技攻关项目(MQ2014-09) This work was supported by the National Natural Science Foundation of China (U1435212, 61432011, 61573229) and the Key Scientific and Technological Project of Shanxi Province (MQ2014-09).

A Distributed Representation Model for Short Text Analysis

Liang Jiye, Qiao Jie, Cao Fuyuan,Liu Xiaolin
(School of Computer and Information Technology, Shanxi University, Taiyuan 030006) (Key Laboratory of Computational Intelligence and Chinese Information Processing (Shanxi University), Ministry of Education, Taiyuan 030006)
Online: 2018-08-01







摘要/Abstract


摘要: 短文本的分布式表示已经成为文本数据挖掘的一项重要任务.然而,直接应用分布式表示模型Paragraph Vector尚有不足,其根本原因是其在训练过程中并没有利用到语料库级别的信息,从而不能有效改善短文本中语境信息不足的情况.鉴于此,提出了一种面向短文本分析的分布式表示模型——词对主题句向量模型(biterm topic paragraph vector, BTPV),该模型通过将词对主题模型(biterm topic model, BTM)得出的主题信息融入Paragraph Vector中,不仅使得模型训练过程中利用到了全局语料库的信息,而且还利用BTM显性的主题表示完善了Paragraph Vector隐性的空间向量.实验采用爬取到的热门新闻评论作为数据集,并选用K-Means聚类算法对各模型的短文本表示效果进行比较.实验结果表明,基于BTPV模型的分布式表示较常见的分布式向量化模型word2vec和Paragraph Vector来说能取得更好的短文本聚类效果,从而显现出该模型面向短文本分析的优势.






[1]崔婉秋,杜军平,寇菲菲,李志坚,LeeJangMyung. 面向微博短文本的社交与概念化语义扩展搜索方法[J]. 计算机研究与发展, 2018, 55(8): 1641-1652.
[2]刘知远,孙茂松,林衍凯,谢若冰. 知识表示学习研究进展[J]. 计算机研究与发展, 2016, 53(2): 247-261.
[3]王仲远,程健鹏,王海勋,文继荣. 短文本理解研究[J]. 计算机研究与发展, 2016, 53(2): 262-269.
[4]彭敏, 黄佳佳, 朱佳晖, 黄济民, 刘纪平. 基于频繁项集的海量短文本聚类与主题抽取[J]. 计算机研究与发展, 2015, 52(9): 1941-1953.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3742
相关话题/信息 计算机 实验 山西大学 计算

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 变熵画像:一种数量级压缩物端数据的多粒度信息模型
    朝鲁1,2,3,彭晓晖1,徐志伟11(中国科学院计算技术研究所北京100190);2(中国科学院大学北京100049);3(智能处理器研究中心(中国科学院计算技术研究所)北京100190)(chaolu@ict.ac.cn)出版日期:2018-08-01基金资助:国家自然科学基金重点项目(61532 ...
    本站小编 Free考研考试 2022-01-01
  • 基于关键信息的问题相似度计算
    齐乐,张宇,刘挺(哈尔滨工业大学社会计算与信息检索研究中心哈尔滨150001)(lqi@ir.hit.edu.cn)出版日期:2018-07-01基金资助:国家“九七三”重点基础研究发展计划基金项目(2014CB340503);国家自然科学基金项目(61472105,61502120)Questio ...
    本站小编 Free考研考试 2022-01-01
  • 异或-置乱框架下邻域预测加密域可逆信息隐藏
    鄢舒,陈帆,和红杰(信号与信息处理四川省重点实验室(西南交通大学)成都611756)(yan_shu@126.com)出版日期:2018-06-01基金资助:国家自然科学基金项目(61373180,61461047)ReversibleDataHidinginEncryptedImageBasedo ...
    本站小编 Free考研考试 2022-01-01
  • 一种基于社区专家信息的协同过滤推荐算法
    张凯涵,梁吉业,赵兴旺,王智强(山西大学计算机与信息技术学院太原030006)(计算智能与中文信息处理教育部重点实验室(山西大学)太原030006)(752750403@qq.com)出版日期:2018-05-01基金资助:国家自然科学基金项目(61432011,U1435212,61603230) ...
    本站小编 Free考研考试 2022-01-01
  • 基于虚拟拓扑的多级可信传输体系及路由计算
    陈文龙1,赵一荣1,肖融2,唐晓岚1,徐恪31(首都师范大学信息工程学院北京100048);2(北京师范大学信息科学与技术学院北京100875);3(清华大学计算机科学与技术系北京100084)(chenwenlong@cnu.edu.cn)出版日期:2018-04-01基金资助:国家自然科学基金项 ...
    本站小编 Free考研考试 2022-01-01
  • 基于综合信任的边缘计算资源协同研究
    邓晓衡1,关培源1,万志文1,刘恩陆1,罗杰1,赵智慧2,刘亚军1,张洪刚31(中南大学信息科学与工程学院长沙410075);2(中南大学软件学院长沙410075);3(马萨诸塞大学波士顿分校工程系波士顿02125-3393)(dxh@csu.edu.cn)出版日期:2018-03-01基金资助:国 ...
    本站小编 Free考研考试 2022-01-01
  • 2018边缘计算专题前言
    邓晓衡1,李东升2,吴帆31(中南大学);2(国防科技大学);3(上海交通大学)出版日期:2018-03-01Online:2018-03-01摘要/Abstract摘要:伴随着计算机软硬件和网络技术的发展,计算模式从大型主机计算演进到C/S模式的网络计算,再到云计算,从集中式计算到分布式计算再回到 ...
    本站小编 Free考研考试 2022-01-01
  • 边缘计算环境下应用驱动的网络延迟测量与优化技术
    符永铨,李东升(国防科技大学计算机学院长沙410073)(国防科技大学并行与分布处理重点实验室长沙410073)(yongquanf@nudt.edu.cn)出版日期:2018-03-01基金资助:国家“九七三”重点基础研究发展计划基金项目(2014CB340303);国家自然科学基金项目(6140 ...
    本站小编 Free考研考试 2022-01-01
  • 边缘计算标准化进展与案例分析
    吕华章,陈丹,范斌,王友祥,乌云霄(中国联合网络通信有限公司网络技术研究院无线技术部北京100048)(lvhz7@chinaunicom.cn)出版日期:2018-03-01基金资助:中国联通5G网络演进、关键技术研究及业务示范项目(Z9B17ZU0R00009)StandardizationPr ...
    本站小编 Free考研考试 2022-01-01
  • 融合移动边缘计算的未来5G移动通信网络
    齐彦丽,周一青,刘玲,田霖,石晶林1(中国科学院大学北京100049);2(中国科学院计算技术研究所无线通信技术研究中心北京100190);3(北京市移动计算与新型终端重点实验室(中国科学院计算技术研究所)北京100080)(qiyanli@ict.ac.cn)出版日期:2018-03-01基金资助 ...
    本站小编 Free考研考试 2022-01-01