基于主题模型的深层网数据源选择算法
外文标题:Deep Web resource selection using topic model
文献类型:期刊
作者:王秋月[1]
机构:[1]中国人民大学信息学院
[2]中国人民大学信息学院
[3]中国人民大学信息学院
年:2015
期刊名称:计算机应用
卷:35
期:9
页码范围:2553-2559,2595
增刊:增刊
收录情况:中文核心期刊要目总览
所属部门:信息学院
语言:中文
ISSN:1001-9081
链接地址:http://d.g.wanfangdata.com.cn/Periodical_jsjyy201509028.aspx
DOI:10.11772/j.issn.1001-9081.2015.09.2553
人气指数:2
浏览次数:2
基金:国家自然科学基金资助项目; 软件工程国家重点实验室开放研究基金资助项目
关键词:深层网;主题模型;隐含狄利克雷分布;数据源选择;联邦搜索
摘要:联邦搜索是从大规模深层网上获取信息的一种重要技术.给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源.现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配,通常无法很好地解决少量样本文档的信息缺失问题.针对这一问题,提出了基于隐含狄利克雷分布(LDA)主题模型进行数据源选择的方法.首先,使用LDA主题模型获得数据源和查询的主题概率分布;然后,通过比较两者主题概率分布的相近性来对所有数据源进行排序.通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题.在TREC FedWeb 2013和2014 Track的测试集上分别进行了实验,并和其他参赛方法的结果进行了比较.在FedWeb 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24%;在FedWeb 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22%和43%.另外,使用文档片段来代替文档还可以大幅提升系统的效率,更增加了此方法的实用性和可行性.
作者其他论文
XML关键词检索的查询理解.李求实;王秋月;王珊.软件学报.2012,23(8),2002-2017.
面向更新密集型应用的内存数据库高效检查点技术.覃雄派;肖艳芹;曹巍,等.计算机学报.2009,32(11),2200-2210.
平衡I/O和CPU的XML关键词检索.李求实;王秋月;王珊.计算机科学与探索.2010,4(2),124-133.
面向不同数据分布的多维直方图算法COCA-Hist.曹巍;王珊;覃雄派,等.计算机学报.2008,31(6),1013-1024.
数据库锁资源的自适应管理.覃雄派;曹巍;王珊.计算机研究与发展.2007,44(z3),201-206.