一种基于图模型的Web数据库采样方法
外文标题:A Graph-Based Approach for Web Database Sampling
文献类型:期刊
作者:刘伟[1]
机构:[1]中国人民大学信息学院,中国人民大学信息学院,中国人民大学信息学院 北京100872,北京100872,北京100872
[2]中国人民大学信息学院,中国人民大学信息学院,中国人民大学信息学院 北京100872,北京100872,北京100872
[3]中国人民大学信息学院,中国人民大学信息学院,中国人民大学信息学院 北京100872,北京100872,北京100872
通讯作者:Liu, W.
年:2008
期刊名称:软件学报
卷:19
期:2
页码范围:179-193
增刊:增刊
收录情况:EI(20081311170336)
所属部门:信息学院
语言:中文
ISSN:1000-9825
链接地址:http://d.g.wanfangdata.com.cn/Periodical_rjxb200802002.aspx
DOI:10.3724/SP.J.1001.2008.00179
人气指数:3
浏览次数:3
基金:国家自然科学基金; 国家高技术研究发展计划(863计划); 北京市自然科学基金; 新世纪优秀人才支持计划
关键词:deep Web;Web数据库;数据库采样
摘要:Web数据库中,海量的信息隐藏在具有特定查询能力的查询接口后面,使人无法了解一个Web数据库内容的特征,比如主题的分布、更新的频率等,这就为Deep Web数据集成带来了巨大的挑战.为了解决这个问题,提出了一种基于图模型的Web数据库采样方法,可以通过查询接口从Web数据库中以增量的方式获取近似随机的样本,即每次查询获取一定数量的样本记录,并且利用已经保存在本地的样本记录生成下一次的查询.该方法的一个重要特点是不受查询接口中属性表现形式的局限,因此是一种一般的Web数据库采样方法.在本地的模拟实验和真实Web数据库上的大量实验表明,该方法可以在较小代价下获得高质量的样本.
作者其他论文
差分隐私保护下一种精确挖掘top-k频繁模式方法.张啸剑;王淼;孟小峰.计算机研究与发展.2014,51(1),104-114.
大规模图数据可达性索引技术:现状与展望.富丽贞;孟小峰.计算机研究与发展.2015,52(1),116-129.
海量高维向量的并行Top-k连接查询.马友忠;慈祥;孟小峰.计算机学报.2015,38(1),86-98.
基于小数据的在线用户兴趣长程演化研究.李勇;孟小峰;刘继,等.计算机研究与发展.2015,779-788.
云数据管理索引技术研究.马友忠;孟小峰.软件学报.2015,26(1),145-166.