一种数据驱动的Wrapper自动生成与维护方法
文献类型:会议
作者:王仲远[1]
机构:[1]中国人民大学信息学院 北京 100872
[2]中国人民大学信息学院 北京 100872
[3]中国人民大学信息学院 北京 100872
年:2008
会议名称:第二十五届中国数据库学术会议(NDBC2008)
会议论文集:第二十五届中国数据库学术会议(NDBC2008)论文集
页码范围:276-281
会议地点:桂林
会议开始日期:2008-10-24
所属部门:信息学院
人气指数:3
浏览次数:3
语言:中文
关键词:Deep Web;数据集成;Wrapper自动生成;Wrapper维护;数据驱动;数据项匹配
摘要:Wrapper的生成与维护是Deep Web数据集成中一项非常重要的研究课题。传统的方法通常是通过对网页结构或特征的分析来推导Wrapper,这种方法严重依赖于网站模板,在处理某些网站时可能完全失效.同时,以往研究对于Wrapper的维护问题关注较少.这两个问题导致无法真正实现大规模Deep Web数据集成.提出了一种新颖的数据驱动的Wrapper自动生成与维护方法。这种方法利用同一领域不同网站之间,以及同一网站不同版本之间的语义关系,通过数据项的匹配,来生成和维护Wrapper.该方法没有模板依赖的问题,无需设置阈值.经过大量实验证明,此方法在准确性与适用性上与原有方法相比有较大提高.
作者其他论文
差分隐私保护下一种精确挖掘top-k频繁模式方法.张啸剑;王淼;孟小峰.计算机研究与发展.2014,51(1),104-114.
大规模图数据可达性索引技术:现状与展望.富丽贞;孟小峰.计算机研究与发展.2015,52(1),116-129.
海量高维向量的并行Top-k连接查询.马友忠;慈祥;孟小峰.计算机学报.2015,38(1),86-98.
基于小数据的在线用户兴趣长程演化研究.李勇;孟小峰;刘继,等.计算机研究与发展.2015,779-788.
云数据管理索引技术研究.马友忠;孟小峰.软件学报.2015,26(1),145-166.