大数据集成中确定数据准确属性值的WR方法

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

中国人民大学辅仁网/2017-07-05

文献详情
大数据集成中确定数据准确属性值的WR方法
外文标题：WR Approach: Determining Accurate Attribute Values in Big Data Integration
文献类型：期刊
作者：周宁南^[1]盛万兴^[2]刘科研^[3]张孝^[4]王珊^[5]
机构：[1]中国电力科学研究院北京 100192;中国人民大学信息学院北京 100872
[2]中国电力科学研究院北京 100192
[3]中国电力科学研究院北京 100192
[4]数据工程与知识工程教育部重点实验室(中国人民大学) 北京 100872;中国人民大学信息学院北京 100872
[5]数据工程与知识工程教育部重点实验室(中国人民大学) 北京 100872;中国人民大学信息学院北京 100872

通讯作者：Zhang, Xiao(zhangxiao@ruc.edu.cn)
年：2016
期刊名称：计算机研究与发展
卷：53
期：2
页码范围：449-458
增刊：增刊
收录情况：EI(20161102091801)中文核心期刊要目总览中国科技核心期刊CSCD(CSCD:5647793)
所属部门：信息学院；数据工程与知识工程教育部重点实验室
语言：中文
ISSN：1000-1239
链接地址：http://d.g.wanfangdata.com.cn/Periodical_jsjyjyfz201602018.aspx
DOI：10.7544/issn1000-1239.2016.20148275
人气指数：5
浏览次数：5
基金：国家“九七三”重点基础研究发展计划基金项目; 国家电网公司研究项目(EPRIPDKJ[2014]3763号)This work was supported by the National Basic Research Program of China (973 Program); the Project of State Grid Corporation of China Research Program
关键词：大数据集成;数据质量;数据准确性;数据清洗;权重规则
摘要：大数据集成是提供高质量数据以进行决策的基础,集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间的准确程度,得到了相对准确的属性值.然而这种方法在处理多个可能的准确值或设计的规则存在冲突等情况下需要较多人工交互.为此提出基于权重规则的WR (weighted-rule)方法确定大数据集成中数据的准确属性值.该方法为属性值间准确程度的判断规则扩充了权重,在准确值发生冲突时避免了R-topK方法中人工交互干预.基于追逐过程设计了约束条件推理算法,并证明它能够在O(n2)内推导出每对属性值间的带权重的准确程度,形成推导准确属性值的约束条件.面对约束条件中可能的冲突,提出了目标求解算法,在O(n)时间内从所有属性值组合中搜索最可能的准确属性值.在真实和合成数据集中进行了充分的实验,验证了WR方法的效果和效率.WR方法较R-topK方法在性能上提高了3～15倍,在效果上提升7％～80％.
作者其他论文

内存OLAP多核并行查询优化技术研究.焦敏;张延松;王珊,等.计算机学报.2014,1895-1910.
一个基于三元组存储的列式OLAP查询执行引擎.朱阅岸;张延松;周烜,等.软件学报.2014,25(4),753-767.
面向大规模机群的可扩展OLAP查询技术.王会举;覃雄派;王珊,等.计算机学报.2015,38(1),45-58.
内存数据仓库集群技术研究.张延松;王珊;周烜.华东师范大学学报（自然科学版）.2014,117-132.
Co-OLAP:CPU&GPU混合平台上面向星形模型基准的协同OLAP.张宇;张延松;张兵,等.华东师范大学学报（自然科学版）.2014,240-251.

相关话题/数据 北京 工程 中国人民大学 信息学院

领限时大额优惠券,享本站正版考研考试资料!
优惠券领取后72小时内有效，10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材，产品类型包含电子书、题库、全套资料以及视频，无论您是考研复习、考证刷题，还是考前冲刺等，不同类型的产品可满足您学习上的不同需求。 ...
考试优惠券本站小编 Free壹佰分学习网 2022-09-19
大数据融合研究:问题与挑战
文献详情大数据融合研究:问题与挑战外文标题：ResearchontheBigDataFusion:IssuesandChallenges文献类型：期刊作者：孟小峰[1]杜治娟[2]机构：[1]中国人民大学信息学院北京100872[2]中国人民大学信息学院北京100872年：2016期刊名称：计算机研 ...
中国人民大学科研学术中国人民大学辅仁网 2017-07-05
大数据环境下高校图书馆古文献资源数字化现状分析
文献详情大数据环境下高校图书馆古文献资源数字化现状分析外文标题：StatusAnalysisontheDigitizationofAncientLiteratureResourcesinUniversityLibrariesinBigDataEnvironment文献类型：期刊作者：曹丽[1]机构： ...
中国人民大学科研学术中国人民大学辅仁网 2017-07-05
利用网络规模叠加法估计北京市大学生毒品使用人群规模
文献详情利用网络规模叠加法估计北京市大学生毒品使用人群规模外文标题：Theapplicationofnetworkscale-upmethodsonestimationofdruguseinBeijingcollegestudents文献类型：期刊作者：郭静[1]薛莉萍[2]范慧[3]吴亚琴[4]机 ...
中国人民大学科研学术中国人民大学辅仁网 2017-07-05
企业年金对员工工作搜寻和任期的影响*--基于雇主-雇员匹配数据的实证研究
文献详情企业年金对员工工作搜寻和任期的影响*--基于雇主-雇员匹配数据的实证研究外文标题：TheEffectsofEnterpriseAnnuityonJobSearchBehaviorandTenureofEmployees:EmpiricalEvidencefromCMEELS2013文献类型： ...
中国人民大学科研学术中国人民大学辅仁网 2017-07-05
企业年金参与的影响因素分析--基于雇主-雇员匹配数据的实证研究
文献详情企业年金参与的影响因素分析--基于雇主-雇员匹配数据的实证研究外文标题：WillingnessandChoice:WhatDeterminesEnterpriseAnnuityParticipation---EmpiricalEvidencefromCMEELS2013文献类型：期刊作者：郭 ...
中国人民大学科研学术中国人民大学辅仁网 2017-07-05
消费者对黄瓜质量安全的满意度分析--来自北京,长沙和成都三市的证据
文献详情消费者对黄瓜质量安全的满意度分析--来自北京,长沙和成都三市的证据外文标题：AnalysisofConsumerSatisfactionwithQualityandSafetyofCucumber文献类型：期刊作者：林文声[1]周佳丽[2]王启魁[3]王志刚[4]机构：[1]中国人民大学农业 ...
中国人民大学科研学术中国人民大学辅仁网 2017-07-05
论管理会计工具应用的制约瓶颈及其解决路径——基于沪深两市 A股制造业上市公司经验数据的分析
文献详情论管理会计工具应用的制约瓶颈及其解决路径——基于沪深两市A股制造业上市公司经验数据的分析外文标题：OntheBottleneckoftheApplicationofManagementAccountingToolsandItsSolutions:AnAnalysisBasedontheEmp ...
中国人民大学科研学术中国人民大学辅仁网 2017-07-05
晋升竞争与工业用地出让——基于2007~2011年中国城市面板数据的分析
文献详情晋升竞争与工业用地出让——基于2007~2011年中国城市面板数据的分析文献类型：期刊作者：杨其静[1]彭艳琼[2]机构：[1]中国人民大学企业与组织研究中心[2]国家信息中心年：2016期刊名称：社会科学文摘期：01页码范围：55-56增刊：增刊语言：中文关键词：工业用地出让;征地补偿;土 ...
中国人民大学科研学术中国人民大学辅仁网 2017-07-05
基于计划行为理论的高校食堂就餐浪费行为研究--以北京某高校学生食堂为例
文献详情基于计划行为理论的高校食堂就餐浪费行为研究--以北京某高校学生食堂为例文献类型：期刊作者：王祚荣[1]机构：[1]中国人民大学后勤集团北区食堂年：2016期刊名称：高校后勤研究期：1页码范围：66-68增刊：增刊所属部门：后勤集团语言：中文ISSN：1672-8882链接地址：http:// ...
中国人民大学科研学术中国人民大学辅仁网 2017-07-05
风险交流视角下北京市学龄前儿童家长零食风险认知调查与特征分析
文献详情风险交流视角下北京市学龄前儿童家长零食风险认知调查与特征分析外文标题：CharacteristicsAnalysisonSnacksRiskCognitionofParentsofPre-schoolChildreninBeijingCityfromPerspectiveofRiskComm ...
中国人民大学科研学术中国人民大学辅仁网 2017-07-05