一种数据驱动的Wrapper自动生成与维护方法
文献类型:会议
作者:王仲远[1]
机构:[1]中国人民大学信息学院
[2]中国人民大学信息学院
[3]中国人民大学信息学院
年:2008
会议名称:第二十五届中国数据库学术会议
会议论文集: 科学出版社(Science Press)
页码范围:6
会议地点:中国广西桂林
会议开始日期:2008-10-24
所属部门:信息学院
语言:中文
关键词:Deep Web;数据集成;Wrapper生成;Wrapper维护
摘要:Wrapper的生成与维护是Deep Web数据集成中一项非常重要的研究课题.传统的方法通常是通过对网页结构或特征的分析来推导Wrapper,这种方法严重依赖于网站模板,在处理某些网站时可能完全失效.同时,以往研究对于Wrapper的维护问题关注较少.这两个问题导致无法真正实现大规模Deep Web数据集成.提出了一种新颖的数据驱动的Wrapper自动生成与维护方法.这种方法利用同一领域不同网站之间,以及同一网站不同版本之间的语义关系,通过数据项的匹配,来生成和维护Wrapper.该方法没有模板依赖的问题,无需设置阈值.经过大量实验证明,此方法在准确性与适用性上与原有方法相比有较大提高.
作者其他论文
差分隐私保护下一种精确挖掘top-k频繁模式方法.张啸剑;王淼;孟小峰.计算机研究与发展.2014,51(1),104-114.
大规模图数据可达性索引技术:现状与展望.富丽贞;孟小峰.计算机研究与发展.2015,52(1),116-129.
海量高维向量的并行Top-k连接查询.马友忠;慈祥;孟小峰.计算机学报.2015,38(1),86-98.
基于小数据的在线用户兴趣长程演化研究.李勇;孟小峰;刘继,等.计算机研究与发展.2015,779-788.
云数据管理索引技术研究.马友忠;孟小峰.软件学报.2015,26(1),145-166.