摘要:数据集成在数据管理与分析领域起着重要的作用.尽管从学术界首次提出并开始研究数据集成问题已经过去30多年,但在各个领域仍然存在着大量与数据集成问题密切相关的问题亟待解决.对数据集成领域从2001年开始到现在相关工作的发展脉络进行了梳理与总结.通过追踪数据集成方法的发展轨迹,不仅可以了解前人在解决该问题时所作出的努力以及发掘出的研究方向,还可以进一步了解各个数据发展领域所研究问题的成因以及发展脉络.最终,通过分析近几年数据集成方面的工作,可以进一步展望未来在数据集成领域的潜在研究方向,为从事相关领域研究的****提供参考.
Abstract:Data integration plays a very important role in data management and analytical area. Although there have been decades since the data integration problem was first proposed, there are many data integration problems that remain unsolved. This study surveys the works in data integration area from 2001 until now. By categorizing these papers and their methodologies, it is able to summarize how these works develop and how their research topics shift from time to time. Several research topics are also filtered out that draw much attention recently and hopefully the survey and conclusions may provide guidance to the related researchers.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5911
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
数据集成方法发展与展望
本站小编 Free考研考试/2022-01-02
相关话题/数据 工作 领域 脉络 数据管理
一种基于领域适配的跨项目软件缺陷预测方法
摘要:软件缺陷预测旨在帮助软件开发人员在早期发现和定位软件部件可能存在的潜在缺陷,以达到优化测试资源分配和提高软件产品质量的目的.跨项目缺陷预测在已有项目的缺陷数据集上训练模型,去预测新的项目中的缺陷,但其效果往往不理想,其主要原因在于,采样自不同项目的样本数据集,其概率分布特性存在较大差异,由此对 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02数据标注研究综述
摘要:数据标注是大部分人工智能算法得以有效运行的关键环节.数据标注越准确、标注的数据量越大,算法的性能就越好.数据标注行业的发展带动了中国许多城市和城镇的就业,促使中国逐渐成为世界数据标注的中心.阐述了数据标注的发展概况,包括起源、应用场景、分类和任务;列举了目前常用的标注数据集、开源的数据标注工具 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于符号语义的不完整数据聚集查询处理算法
摘要:研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义中扩展了传统关系数据库模型,提出了一种通用不完整数据库模型.该模型可以处 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02用户可动态撤销及数据可实时更新的云审计方案
摘要:随着云存储的出现,越来越多的用户选择将大量数据存储在远程云服务器上,以节约本地存储资源.如何验证用户远程存储在云端数据的完整性,成为近年来学术界的一个研究热点.虽然现已提出了很多云审计方案,但大多数方案都假设个人和企业在使用云存储系统的整个过程中,用户及其公私钥始终不变,且不能高效地对数据进行 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02大数据实时交互式分析
摘要:实时交互式分析针对多目标和多角度的分析任务,通过多轮次的用户-数据库交互过程,逐步明确分析任务与分析目标,全方位地了解相关领域信息,最终得到科学的、全面的分析结果.相比传统数据库“提交查询-返回结果”的单轮次交互查询方式,实时交互式分析更强调交互的实时性与查询结果的时效性.对实时交互式分析的研 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一种面向中小规模数据集的模糊分类方法
摘要:虽然Takagi-Sugeno-Kang(TSK)模糊分类器在一些重要场合已经取得了广泛应用,但如何提高其分类性能和增强其可解释性,仍然是目前的研究热点.提出一种随机划分与组合特征且规则具有高可解释性的深度TSK模糊分类器(RCC-DTSK-C),但和其他分类器构造不同的是:(1)RCC-DT ...中科院软件研究所 本站小编 Free考研考试 2022-01-02联合Laplacian正则项和特征自适应的数据聚类算法
摘要:在信息爆炸时代,大数据处理已成为当前国内外热点研究方向之一.谱分析型算法因其特有的性能而获得了广泛的应用,然而受维数灾难影响,主流的谱分析法对高维数据的处理仍是一个极具挑战的问题.提出一种兼顾维数特征优选和图Laplacian约束的聚类模型,即联合拉普拉斯正则项和自适应特征学习(jointLa ...中科院软件研究所 本站小编 Free考研考试 2022-01-02使用共享变量分析和约束求解检测安卓应用数据竞争
摘要:安卓系统在移动端操作系统始终占据主导地位,在增强用户体验和提高程序性能的同时,其特有的事件驱动模型和多线程模型也造成了并发缺陷.并发程序中,线程调度的不确定性和难以再现性是并发缺陷检测困难的原因.现有技术主要在动态生成执行路径的基础上进行发生序(happens-before)分析,进而检测安卓 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于噪声数据与干净数据的深度置信网络
摘要:建立以受限玻尔兹曼机(restrictedBoltzmannmachine,简称RBM)为基石的深度网络模型,是深度学习研究的热点领域之一.Point-wiseGated受限玻尔兹曼机(point-wisegatedRBM,简称pgRBM)是一种RBM的变种算法.该算法能够在含噪声的数据中自适 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02分布式数据库下基于剪枝的并行合并连接策略
摘要:排序合并连接是数据库系统一种重要的连接实现方式,比哈希连接有更广泛的应用.分布式环境下,数据分片、分布存储,面对昂贵的网络代价,进行高效排序合并连接的挑战巨大.传统策略首先针对连接数据进行排序,然后基于排好序的数据执行合并连接.这两部分操作均基于原始数据进行操作,通常情况下,原始连接数据存在无 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02