一种针对海量数据中查询词的搜索维度挖掘方法
文献类型:专利
发明人:窦志成[1]
机构:中国人民大学
申请人:中国人民大学
专利类型:发明专利
年度:2015
专利申请日期:2015-12-07
专利公开日期:2016-04-27
专利公开号:CN105528421A
专利申请号:CN201510890422.5
国家或地区:北京
摘要:本发明公开了一种针对海量数据中查询词的搜索维度挖掘方法,其该方法包括如下步骤:1)基于文本、HTML标签和重复区域等模式,从抓取到的数据集中的每一个网页中抽取Lists;2)增加抽取机制,以实现对步骤1)中抽取到的Lists进行有效性扩充;3)评估抽取出来的每一个List的重要性;4)词项列表聚类:将相似的词项列表进行合并形成一个查询维度;5)查询维度及词项列表的排序:计算不同的查询分面、词项的重要性。本发明可以获得更多有效的词项列表,在得到补充后的词项列表之后,对新的词项列表进行打分,将相似的词项列表进行合并分类,计算不同的查询分面、词项列表的重要性,最终使得挖掘出的查询维度更加完善,使得用户可以获得更为完整的信息。
作者其他论文
Shared-nothing并行数据库系统查询优化技术.文继荣;陈红;王珊.计算机学报.2000,23(1),28-38.
并行数据库系统PBASE/2的查询优化机制.陈红;文继荣;王珊.计算机工程.2000,26(7),11-12,187.
高适应性并行数据库系统PBASE的总体结构与关键技术.王珊;陈红;文继荣,等.863计划智能计算机主题学术会议.2001,226-241.
嵌套查询在并行数据库中的实现.周胜;文继荣;王珊.第十五届全国数据库学术会议.1998,274-277.
大数据时代的互联网分析引擎.窦志成;文继荣.大数据.2015,36-47.