删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种具有新主题偏向性的短文本动态聚类方法

本站小编 Free考研考试/2022-02-06

一种具有新主题偏向性的短文本动态聚类方法

朱映雪1,2(),黄瑞章1,2,*(),马灿1,2
1. 贵州大学大学计算机科学与技术学院,贵州 贵阳 550025
2. 贵州省公共大数据重点实验室,贵州 贵阳 550025
收稿日期:2018-05-31出版日期:2018-12-20发布日期:2018-12-26
通讯作者:黄瑞章E-mail:zhuyingxue1993@gmail.com;rzhuang@gzu.edu.cn
作者简介:朱映雪(1993—),女,贵州毕节人,硕士研究生,主要研究方向为数据挖掘与机器学习.E-mail:zhuyingxue1993@gmail.com
基金资助:国家自然科学基金项目(61462011);国家自然科学基金重大研究计划项目(91746116);贵州省自然科学基金(黔科合基础[2018]1035)

A short text dynamic clustering approach bias on new topic

Yingxue ZHU1,2(),Ruizhang HUANG1,2,*(),Can MA1,2
1. School of Computer Science and Technology, Guizhou University, Guiyang 550025, Guizhou, China
2. Guizhou Provincial Key Laboratory of Public Big Data, Guiyang 550025, Guizhou, China
Received:2018-05-31Online:2018-12-20Published:2018-12-26
Contact:Ruizhang HUANG E-mail:zhuyingxue1993@gmail.com;rzhuang@gzu.edu.cn

Supported by:国家自然科学基金项目(61462011);国家自然科学基金重大研究计划项目(91746116);贵州省自然科学基金(黔科合基础[2018]1035)




摘要/Abstract


摘要: 为了解决短文本数据流的动态聚类问题,提出动态的狄利克雷多项混合(dynamic Dirichlet multinomial mixture,DDMM)模型。模型能够很好地捕获短文本数据流中主题随时间变化而变化的动态过程,同时考虑到已有历史主题和新主题之间的关系,能够对主题继承性的强弱进行调整,从而增大新主题产生的可能。在Gibbs采样过程中,能够自动估算出聚类个数。模拟数据和真实数据上的试验表明,DDMM模型是有效的。同时将提出的方法和传统动态聚类方法进行对比,结果表明DDMM模型能够进行有效的文本动态聚类,并且聚类效果表现良好。


PDF全文下载地址:

http://gxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=1769
相关话题/数据 贵州 基础 公共 计算机科学与技术学院

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 一种基于深度属性加权的数据流自适应集成分类算法
    一种基于深度属性加权的数据流自适应集成分类算法李尧(),王志海(),孙艳歌,张伟北京交通大学计算机与信息技术学院,北京100044收稿日期:2018-05-25出版日期:2018-12-20发布日期:2018-12-26通讯作者:王志海E-mail:16120396@bjtu.edu.cn;zhhw ...
    本站小编 Free考研考试 2022-02-06
  • 基于人工蜂群和SVM的基因表达数据分类
    基于人工蜂群和SVM的基因表达数据分类叶明全,高凌云,万春圆皖南医学院健康大数据挖掘与应用研究中心,安徽芜湖241002收稿日期:2017-05-09出版日期:2018-06-20发布日期:2017-05-09作者简介:叶明全(1973—),男,安徽当涂人,教授,博士,主要研究方向为数据挖掘与机器学 ...
    本站小编 Free考研考试 2022-02-06
  • 基于HBase和SimHash的大数据K-近邻算法
    基于HBase和SimHash的大数据K-近邻算法王婷婷a,b,翟俊海a,b,张明阳a,b*,郝璞a,b河北大学a.河北省机器学习与计算智能重点实验室;b.数学与信息科学学院,河北保定071002收稿日期:2017-08-29出版日期:2018-06-20发布日期:2017-08-29通讯作者:翟俊 ...
    本站小编 Free考研考试 2022-02-06
  • 非均匀数据的变异系数聚类算法
    非均匀数据的变异系数聚类算法杨天鹏1,徐鲲鹏1,陈黎飞1,2*1.福建师范大学数学与信息学院,福建福州350117;2.数字福建环境监测物联网实验室,福建福州350117收稿日期:2017-08-24出版日期:2018-06-20发布日期:2017-08-24通讯作者:陈黎飞(1972—),男,福建 ...
    本站小编 Free考研考试 2022-02-06
  • 基于用户隐式数据的个性化酒店推荐算法䥺Symbol`@@
    基于用户隐式数据的个性化酒店推荐算法䥺Symbol`@@史达1,于淼川2*,李梦琪21.东北财经大学旅游与酒店管理学院,辽宁大连116025;2.东北财经大学国际商学院,辽宁大连116025发布日期:2021-07-19作者简介:史达(1973—),男,博士,教授,博士生导师,研究方向为旅游信息化 ...
    本站小编 Free考研考试 2022-02-06
  • 左截断右删失数据中泊松分布的贝叶斯推断
    左截断右删失数据中泊松分布的贝叶斯推断胡江山1,隋云云1,付云鹏21.潍坊学院数学与信息科学学院,山东潍坊261061;2.辽宁大学经济学院,辽宁沈阳110036发布日期:2021-07-19作者简介:胡江山(1979—),男,硕士,讲师,研究方向为应用统计研究.E-mail:hjs0501@126 ...
    本站小编 Free考研考试 2022-02-06
  • 浙江省空气质量变化特征研究——基于函数型数据分析
    浙江省空气质量变化特征研究——基于函数型数据分析武祺然,周力凯*,孙金金,王念鸽,余群芳浙江财经大学数据科学学院,浙江杭州310018发布日期:2021-07-19作者简介:武祺然(1996—),男,硕士研究生,研究方向为函数型数据分类.E-mail:wu1996@zufe.edu.cn*通信作者简 ...
    本站小编 Free考研考试 2022-02-06
  • 区块链数据隐私保护研究综述
    区块链数据隐私保护研究综述康海燕1,邓婕21.北京信息科技大学信息管理学院,北京100192;2.北京信息科技大学计算机学院,北京100101发布日期:2021-05-13作者简介:康海燕(1971—),男,博士,教授,硕士生导师,研究方向为网络安全与隐私保护.E-mail:kanghaiyan@1 ...
    本站小编 Free考研考试 2022-02-06
  • 面向网络入侵检测数据的对抗样本生成方法
    面向网络入侵检测数据的对抗样本生成方法解滨1,2,3(),李清扬1,董新玉1,21.河北师范大学计算机与网络空间安全学院,河北石家庄0500242.河北师范大学河北省网络与信息安全重点实验室,河北石家庄0500243.河北师范大学供应链大数据分析与数据安全河北省工程研究中心,河北石家庄050024收 ...
    本站小编 Free考研考试 2022-02-06
  • P-未知数据集及其过滤-分离
    P-未知数据集及其过滤-分离刘纪芹,潘正琨山东财经大学数学与数量经济学院,山东济南250014发布日期:2021-01-21作者简介:刘纪芹(1968—),女,博士,教授,研究方向为粗系统理论与应用.E-mail:sdfiljq@126.comP-unknowndatasetsandtheirfil ...
    本站小编 Free考研考试 2022-02-06