删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于主题模型的深层网数据源选择算法

中国人民大学 辅仁网/2017-07-05

文献详情
基于主题模型的深层网数据源选择算法
外文标题:Deep Web resource selection using topic model
文献类型:期刊
作者:王秋月[1]曹巍[2]史少晨[3]
机构:[1]中国人民大学信息学院
[2]中国人民大学信息学院
[3]中国人民大学信息学院

年:2015
期刊名称:计算机应用
卷:35
期:9
页码范围:2553-2559,2595
增刊:增刊
收录情况:中文核心期刊要目总览中国科技核心期刊CSCD(CSCD:5516380)
所属部门:信息学院
语言:中文
ISSN:1001-9081
链接地址:http://d.g.wanfangdata.com.cn/Periodical_jsjyy201509028.aspx
DOI:10.11772/j.issn.1001-9081.2015.09.2553
人气指数:2
浏览次数:2
基金:国家自然科学基金资助项目; 软件工程国家重点实验室开放研究基金资助项目
关键词:深层网;主题模型;隐含狄利克雷分布;数据源选择;联邦搜索
摘要:联邦搜索是从大规模深层网上获取信息的一种重要技术.给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源.现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配,通常无法很好地解决少量样本文档的信息缺失问题.针对这一问题,提出了基于隐含狄利克雷分布(LDA)主题模型进行数据源选择的方法.首先,使用LDA主题模型获得数据源和查询的主题概率分布;然后,通过比较两者主题概率分布的相近性来对所有数据源进行排序.通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题.在TREC FedWeb 2013和2014 Track的测试集上分别进行了实验,并和其他参赛方法的结果进行了比较.在FedWeb 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24%;在FedWeb 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22%和43%.另外,使用文档片段来代替文档还可以大幅提升系统的效率,更增加了此方法的实用性和可行性.
作者其他论文



XML关键词检索的查询理解.李求实;王秋月;王珊.软件学报.2012,23(8),2002-2017.
面向更新密集型应用的内存数据库高效检查点技术.覃雄派;肖艳芹;曹巍,等.计算机学报.2009,32(11),2200-2210.
平衡I/O和CPU的XML关键词检索.李求实;王秋月;王珊.计算机科学与探索.2010,4(2),124-133.
面向不同数据分布的多维直方图算法COCA-Hist.曹巍;王珊;覃雄派,等.计算机学报.2008,31(6),1013-1024.
数据库锁资源的自适应管理.覃雄派;曹巍;王珊.计算机研究与发展.2007,44(z3),201-206.

相关话题/信息学院 测试 计算机 信息 实验

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 试析信息社会文化艺术管理的创新趋势
    文献详情试析信息社会文化艺术管理的创新趋势文献类型:期刊作者:李宝煌[1]机构:[1]中国人民大学艺术学院年:2015期刊名称:大众文艺期:1页码范围:265-266增刊:增刊所属部门:艺术学院语言:中文ISSN:1007-5828链接地址:http://d.g.wanfangdata.com.cn ...
    中国人民大学 辅仁网 2017-07-05
  • 浅析16至17世纪荷兰阿姆斯特丹的市场信息交流机制
    文献详情浅析16至17世纪荷兰阿姆斯特丹的市场信息交流机制外文标题:ResearchontheMarketInformationSystemofAmsterdamfrom16thto17thCentury文献类型:期刊作者:张玲睿[1]机构:[1]中国人民大学经济学院年:2015期刊名称:吉林化工学 ...
    中国人民大学 辅仁网 2017-07-05
  • STM信息资源行业的价值链分析
    文献详情STM信息资源行业的价值链分析外文标题:ComparativeAnalysisonSTMPolicyBetweenDomesticandOverseas文献类型:期刊作者:张秀梅[1]刘俊丽[2]程煜华[3]机构:[1]中国科学技术信息研究所[2]中国人民大学[3]北京万方数据股份有限公司年 ...
    中国人民大学 辅仁网 2017-07-05
  • 贴近技术与社会发展改革大学计算机教育--分析与解读CFC2014
    文献详情贴近技术与社会发展改革大学计算机教育--分析与解读CFC2014文献类型:期刊作者:吴功宜[1]李凤霞[2]杨小平[3]张钢[4]机构:[1]南开大学计算机与控制工程学院[2]北京理工大学计算机学院[3]中国人民大学信息学院[4]天津大学计算机学院年:2014期刊名称:计算机教育期:17页码 ...
    中国人民大学 辅仁网 2017-07-05
  • 政务网络信息生态链中的可信云服务维度构建
    文献详情政务网络信息生态链中的可信云服务维度构建文献类型:会议作者:王涛[1]李尚昊[2]机构:[1]中国人民大学信息资源管理学院北京100872[2]中国人民大学信息资源管理学院北京100872年:2014会议名称:第四届全国情报学博士生学术论坛会议论文集:第四届全国情报学博士生学术论坛论文集页码 ...
    中国人民大学 辅仁网 2017-07-05
  • 信息科学中本体构建方法的比较研究
    文献详情信息科学中本体构建方法的比较研究外文标题:ComparativeStudyonOntologyConstructionMethodsinInformationScience文献类型:期刊作者:袁国铭[1]樊波[2]机构:[1]中国人民大学[2]煤炭总医院年:2014期刊名称:信息安全与通信保 ...
    中国人民大学 辅仁网 2017-07-05
  • 企业战略差异与会计信息的价值相关性
    文献详情企业战略差异与会计信息的价值相关性文献类型:期刊作者:叶康涛[1]张姗姗[2]张艺馨[3]机构:[1]中国人民大学商学院[2]中国人民大学商学院[3]中国人民大学商学院年:2014期刊名称:会计研究期:5页码范围:44-51增刊:增刊收录情况:中文核心期刊要目总览所属部门:商学院语言:中文I ...
    中国人民大学 辅仁网 2017-07-05
  • 基于信息资源价值分配理论的社交网络商业模式研究
    文献详情基于信息资源价值分配理论的社交网络商业模式研究文献类型:会议作者:韩青[1]机构:[1]中国人民大学信息资源管理学院年:2014会议名称:第四届全国情报学博士生学术论坛会议论文集:第四届全国情报学博士生学术论坛论文集页码范围:1-14会议地点:长春会议开始日期:2014-09-01所属部门: ...
    中国人民大学 辅仁网 2017-07-05
  • 基于HTML5的微博信息可视化
    文献详情基于HTML5的微博信息可视化文献类型:会议作者:高欢[1]机构:[1]中国人民大学信息资源管理学院北京100872年:2014会议名称:第四届全国情报学博士生学术论坛会议论文集:第四届全国情报学博士生学术论坛论文集页码范围:1-15会议地点:长春会议开始日期:2014-09-01所属部门: ...
    中国人民大学 辅仁网 2017-07-05
  • 利润率能作为国有企业效率的"充分信息指标"吗?
    文献详情利润率能作为国有企业效率的"充分信息指标"吗?外文标题:CanProfitRateServeAstheEfficiencyofState-ownedEnterprisesFullInformationIndex?文献类型:期刊作者:张晨[1]机构:[1]中国人民大学经济学院年:2014期刊名 ...
    中国人民大学 辅仁网 2017-07-05