基于N-Gram语言模型的并行自适应新闻话题追踪算法
屈庆涛(),刘其成*(),牟春晓烟台大学计算机与控制工程学院, 山东 烟台 264005
收稿日期:
2018-05-25出版日期:
2018-12-20发布日期:
2018-12-26通讯作者:
刘其成E-mail:992883600@qq.com;ytliuqc@163.com作者简介:
屈庆涛(1992—),男,山东滕州人,硕士研究生,主要研究方向为云计算和大数据.E-mail:基金资助:
山东省自然科学基金(ZR2016FM42);山东省重点研发计划(2016GGX109004);国家海洋局“十三五”海洋经济创新发展示范重点项目(YHC-ZB-P201701);国家自然科学基金(61702439)A parallel adaptive news topic tracking algorithm based on N-Gram language model
Qingtao QU(),Qicheng LIU*(),Chunxiao MUSchool of Computer and Control Engineering, Yantai University, Yantai 264005, Shandong, China
Received:
2018-05-25Online:
2018-12-20Published:
2018-12-26Contact:
Qicheng LIU E-mail:992883600@qq.com;ytliuqc@163.comSupported by:
山东省自然科学基金(ZR2016FM42);山东省重点研发计划(2016GGX109004);国家海洋局“十三五”海洋经济创新发展示范重点项目(YHC-ZB-P201701);国家自然科学基金(61702439)摘要/Abstract
摘要: 针对传统的向量空间模型及一元语法模型表示话题的文本特征时忽略词语之间语序关系的问题,提出一种基于N-Gram语言模型的并行自适应新闻话题追踪算法。使用N-Gram语言模型,利用新闻报道中词语间的语序关系进行文本表示,根据贝叶斯分类算法进行话题追踪,利用最小特征平均可信度阈值更新策略,采用测试新闻报道更新训练集,完善话题模型,并在MapReduce分布式计算模型上予以实现。试验表明,该算法不仅有效地提高了话题追踪效果,而且具有良好的并行加速比和可扩展性。
PDF全文下载地址:
http://gxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=1772