一种具有新主题偏向性的短文本动态聚类方法
朱映雪1,2(
),黄瑞章1,2,*(
),马灿1,2 1. 贵州大学大学计算机科学与技术学院,贵州 贵阳 550025
2. 贵州省公共大数据重点实验室,贵州 贵阳 550025
收稿日期:2018-05-31出版日期:2018-12-20发布日期:2018-12-26通讯作者:黄瑞章E-mail:zhuyingxue1993@gmail.com;rzhuang@gzu.edu.cn作者简介:朱映雪(1993—),女,贵州毕节人,硕士研究生,主要研究方向为数据挖掘与机器学习.E-mail:基金资助:国家自然科学基金项目(61462011);国家自然科学基金重大研究计划项目(91746116);贵州省自然科学基金(黔科合基础[2018]1035)A short text dynamic clustering approach bias on new topic
Yingxue ZHU1,2(
),Ruizhang HUANG1,2,*(
),Can MA1,2 1. School of Computer Science and Technology, Guizhou University, Guiyang 550025, Guizhou, China
2. Guizhou Provincial Key Laboratory of Public Big Data, Guiyang 550025, Guizhou, China
Received:2018-05-31Online:2018-12-20Published:2018-12-26Contact:Ruizhang HUANG E-mail:zhuyingxue1993@gmail.com;rzhuang@gzu.edu.cnSupported by:国家自然科学基金项目(61462011);国家自然科学基金重大研究计划项目(91746116);贵州省自然科学基金(黔科合基础[2018]1035)摘要/Abstract
摘要: 为了解决短文本数据流的动态聚类问题,提出动态的狄利克雷多项混合(dynamic Dirichlet multinomial mixture,DDMM)模型。模型能够很好地捕获短文本数据流中主题随时间变化而变化的动态过程,同时考虑到已有历史主题和新主题之间的关系,能够对主题继承性的强弱进行调整,从而增大新主题产生的可能。在Gibbs采样过程中,能够自动估算出聚类个数。模拟数据和真实数据上的试验表明,DDMM模型是有效的。同时将提出的方法和传统动态聚类方法进行对比,结果表明DDMM模型能够进行有效的文本动态聚类,并且聚类效果表现良好。
PDF全文下载地址:
http://gxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=1769
