大数据集成中确定数据准确属性值的WR方法
外文标题:WR Approach: Determining Accurate Attribute Values in Big Data Integration
文献类型:期刊
作者:周宁南[1]
机构:[1]中国电力科学研究院 北京 100192;中国人民大学信息学院 北京 100872
[2]中国电力科学研究院 北京 100192
[3]中国电力科学研究院 北京 100192
[4]数据工程与知识工程教育部重点实验室(中国人民大学) 北京 100872;中国人民大学信息学院 北京 100872
[5]数据工程与知识工程教育部重点实验室(中国人民大学) 北京 100872;中国人民大学信息学院 北京 100872
通讯作者:Zhang, Xiao(zhangxiao@ruc.edu.cn)
年:2016
期刊名称:计算机研究与发展
卷:53
期:2
页码范围:449-458
增刊:增刊
收录情况:EI(20161102091801)
所属部门:信息学院;数据工程与知识工程教育部重点实验室
语言:中文
ISSN:1000-1239
链接地址:http://d.g.wanfangdata.com.cn/Periodical_jsjyjyfz201602018.aspx
DOI:10.7544/issn1000-1239.2016.20148275
人气指数:5
浏览次数:5
基金:国家“九七三”重点基础研究发展计划基金项目; 国家电网公司研究项目(EPRIPDKJ[2014]3763号)This work was supported by the National Basic Research Program of China (973 Program); the Project of State Grid Corporation of China Research Program
关键词:大数据集成;数据质量;数据准确性;数据清洗;权重规则
摘要:大数据集成是提供高质量数据以进行决策的基础,集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间的准确程度,得到了相对准确的属性值.然而这种方法在处理多个可能的准确值或设计的规则存在冲突等情况下需要较多人工交互.为此提出基于权重规则的WR (weighted-rule)方法确定大数据集成中数据的准确属性值.该方法为属性值间准确程度的判断规则扩充了权重,在准确值发生冲突时避免了R-topK方法中人工交互干预.基于追逐过程设计了约束条件推理算法,并证明它能够在O(n2)内推导出每对属性值间的带权重的准确程度,形成推导准确属性值的约束条件.面对约束条件中可能的冲突,提出了目标求解算法,在O(n)时间内从所有属性值组合中搜索最可能的准确属性值.在真实和合成数据集中进行了充分的实验,验证了WR方法的效果和效率.WR方法较R-topK方法在性能上提高了3~15倍,在效果上提升7%~80%.
作者其他论文
内存OLAP多核并行查询优化技术研究.焦敏;张延松;王珊,等.计算机学报.2014,1895-1910.
一个基于三元组存储的列式OLAP查询执行引擎.朱阅岸;张延松;周烜,等.软件学报.2014,25(4),753-767.
面向大规模机群的可扩展OLAP查询技术.王会举;覃雄派;王珊,等.计算机学报.2015,38(1),45-58.
内存数据仓库集群技术研究.张延松;王珊;周烜.华东师范大学学报(自然科学版).2014,117-132.
Co-OLAP:CPU&GPU混合平台上面向星形模型基准的协同OLAP.张宇;张延松;张兵,等.华东师范大学学报(自然科学版).2014,240-251.