一种长文本辅助短文本的文本理解方法
闫盈盈1,2,黄瑞章1,2*,王瑞1,2,马灿1,2,刘博伟1,2,黄庭1,21. 贵州大学计算机科学与技术学院, 贵州 贵阳 550025;2. 贵州省公共大数据重点实验室, 贵州 贵阳 550025
收稿日期:
2017-08-23出版日期:
2018-06-20发布日期:
2017-08-23通讯作者:
黄瑞章(1979— ),女,天津人,副教授,博士,主要研究方向为数据挖掘与机器学习. E-mail:rzhuang@gzu.edu.cnE-mail:yyingy0921@163.com作者简介:
闫盈盈(1991— ),女,山西吕梁人,硕士研究生,主要研究方向为数据挖掘与机器学习. E-mail:yyingy0921@163.com基金资助:
国家自然科学基金资助项目(61462011,61540050);贵州大学引进人才科研资助项目(2011015);贵州省重大应用基础研究资助项目(JZ20142001)A document understanding method for short texts by auxiliary long documents
YAN Yingying1,2, HUANG Ruizhang1,2*, WANG Rui1,2, MA Can1,2, LIU Bowei1,2, HUANG Ting1,21. School of Computer Science and Technology, Guizhou University, Guiyang 550025, Guizhou, China;
2. Guizhou Provincial Key Laboratory of Public Big Data, Guiyang 550025, Guizhou, China
Received:
2017-08-23Online:
2018-06-20Published:
2017-08-23摘要/Abstract
摘要: 在狄利克雷多项回归(dirichlet-multinomial regression, DMR)模型的基础上,提出一个长文本辅助短文本理解的二元狄利克雷多项回归(dual dirichlet-multinomial regression, DDMR)模型。来自不同数据源的长短文本共享一个主题集合,并采用不同的狄利克雷先验产生长短文本的主题分配,使得长文本的主题知识能够迁移到短文本中,改善短文本的理解。试验表明,DDMR模型在短文本的主题发现效果上具有较大的提升作用。
PDF全文下载地址:
http://gxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=1738