一种基于互联语料的热门话题自动挖掘系统
文献类型:专利
发明人:窦志成[1]
机构:中国人民大学
申请人:中国人民大学
专利类型:发明专利
年度:2015
专利申请日期:2015-12-07
专利公开日期:2016-04-13
专利公开号:CN105488196A
专利申请号:CN201510889261.8
国家或地区:北京
人气指数:3
浏览次数:3
摘要:本发明公开了一种基于互联语料的热门话题自动挖掘系统,该系统由两种路线组成:1)爬取现有热词统计站点的热词,通过聚类、实体抽取、关键字挖掘的步骤,生成一系列的热门话题;2)在大量新闻文档中抽取n-gram,通过计算n-gram的互信息和条件熵的值,在大量新闻文档中挖掘高频热词,并利用基于时间序列的事件侦测方法,识别新生话题。本发明不仅能够实时挖掘当下热点事件,并且在生成热门话题的同时,还会自动挖掘该话题的相关关键词和命名实体。
作者其他论文
Shared-nothing并行数据库系统查询优化技术.文继荣;陈红;王珊.计算机学报.2000,23(1),28-38.
并行数据库系统PBASE/2的查询优化机制.陈红;文继荣;王珊.计算机工程.2000,26(7),11-12,187.
高适应性并行数据库系统PBASE的总体结构与关键技术.王珊;陈红;文继荣,等.863计划智能计算机主题学术会议.2001,226-241.
嵌套查询在并行数据库中的实现.周胜;文继荣;王珊.第十五届全国数据库学术会议.1998,274-277.
大数据时代的互联网分析引擎.窦志成;文继荣.大数据.2015,36-47.