删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于因子图的不一致记录对消歧方法

本站小编 Free考研考试/2022-01-01

徐耀丽,李战怀,陈群,王艳艳,樊峰峰
(西北工业大学计算机学院 西安 710072) (大数据存储与管理工业和信息化部重点实验室(西北工业大学) 西安 710129) (yaolixu@mail.nwpu.edu.cn)
出版日期: 2020-01-01


基金资助:国家重点研发计划项目(2018YFB1003403);国家自然科学基金项目(61732014,61672432);陕西省自然科学基础研究计划项目(2018JM6086)

An Approach for Reconciling Inconsistent Pairs Based on Factor Graph

Xu Yaoli, Li Zhanhuai, Chen Qun, Wang Yanyan, Fan Fengfeng
(School of Computer Science and Engineering, Northwestern Polytechnical University, Xi’an 710072) (Key Laboratory of Big Data Storage and Management (Northwestern Polytechnical University), Ministry of Industry and Information Technology, Xi’an 710129)
Online: 2020-01-01


Supported by:This work was supported by the National Key Research and Development Program (2018YFB1003403), the National Natural Science Foundation of China (61732014,61672432), and the Natural Science Basic Research Plan in Shaanxi Province of China (2018JM6086).




摘要/Abstract


摘要: 实体解析(entity resolution, ER)是数据集成和清洗系统的关键基础问题.尽管有大量实体解析方法提出,但这些方法依赖隐式或显式的假设或采用不同的解析策略.对相同的实体解析任务进行处理后,它们的结论存在冲突,产生了大量的不一致记录对.在没有给定标记数据的情况下,进行这类记录对的消歧处理具有很大的挑战:一方面当标签数据缺失时,评估现存方法的解析效果并选出最优的不可行,另一方面尽管可选的方法是协调这些冲突结果以得到一致的标记方案,但有效且融合所有提示信息的消歧策略还有待研究.为此,提出了一种基于因子图的不一致记录对消歧方法.该方法首先对某给定的实体解析任务使用现存的实体解析技术进行实体解析,得到一致或不一致的记录对;接着,用核密度估计、匹配信息传递等方法输出与不一致记录对是否匹配相关的特征,并把这些建模为因子图的因子函数,该因子图是一个带因子权重的联合概率分布;最后基于最大似然估计方法估计出各因子的权重,并基于该分布对不一致记录对进行消歧处理.实验结果表明:在真实的数据集合,该方法有效且优于现存最好的方法.






[1]夏丁,王亚沙,赵梓棚,崔达. 面向智慧民生领域的增量交互式数据集成方法[J]. 计算机研究与发展, 2017, 54(3): 586-596.
[2]李国庆,黄震春. 遥感大数据的基础设施:集成、管理与按需服务[J]. 计算机研究与发展, 2017, 54(2): 267-283.
[3]孟小峰,杜治娟. 大数据融合研究:问题与挑战[J]. 计算机研究与发展, 2016, 53(2): 231-246.
[4]周宁南,盛万兴,刘科研,张孝,王珊. 大数据集成中确定数据准确属性值的WR方法[J]. 计算机研究与发展, 2016, 53(2): 449-458.
[5]王宁, 李杰. 大数据环境下用于实体解析的两层相关性聚类方法[J]. 计算机研究与发展, 2014, 51(9): 2108-2116.
[6]应文豪, 许 敏, 王士同, 邓赵红,. 在大规模数据集上进行快速自适应同步聚类[J]. 计算机研究与发展, 2014, 51(4): 707-720.
[7]许敏,邓赵红,王士同,史荧中. MMCKDE:基于数据流的m-混合聚类核概率密度估计[J]. 计算机研究与发展, 2014, 51(10): 2277-2294.
[8]徐志伟, 谢 毅, 海 沫, 李晓林, 袁子牧,. 人机物三元计算中的通用计算账户与个人信息资产代数[J]. 计算机研究与发展, 2013, 50(6): 1135-1146.
[9]董永权, 李庆忠, 丁艳辉, 彭朝晖,. 基于约束条件随机场的Web数据语义标注[J]. , 2012, 49(2): 361-371.
[10]丁国辉 王国仁 赵宇海. 基于使用信息和聚类方法的多模式集成[J]. , 2010, 47(5): 824-831.
[11]马安香 张 斌 高克宁 齐 鹏 张 引. 基于结果模式的Deep Web数据抽取[J]. , 2009, 46(2): 280-288.
[12]王立宏, 赵宪佳, 武栓虎,. 基于EM的启动子序列半监督学习[J]. , 2009, 46(11): 1942-1948.
[13]王 博 郭 波 . 自治异构数据源聚集模型与算法研究[J]. , 2008, 45(9): 1546-1553.
[14]赵晓非 黄志球. 基于CWM的元数据的形式化推理框架研究[J]. , 2007, 44(5): 829-836.
[15]金 鑫 金远平. 一种改进的基于约束关系的XML查询重写算法研究[J]. , 2007, 44(5): 845-852.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4087
相关话题/数据 计算机 概率 管理 基础

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 2019大数据知识工程及应用专题
    郑庆华(西安交通大学西安710049)出版日期:2019-12-01Online:2019-12-01摘要/Abstract摘要:实际工程问题的求解往往涉及跨领域、跨模态的海量碎片化知识,这些知识不能仅靠专家提供,而需要从环境中动态学习和融合生成.知识工程旨在研究计算机对知识的获取、表征和处理.随着 ...
    本站小编 Free考研考试 2022-01-01
  • 面向数据流结构的指令内访存冲突优化研究
    欧焱1,2,冯煜晶1,李文明1,叶笑春1,王达1,范东睿1,21(计算机体系结构国家重点实验室(中国科学院计算技术研究所)北京100190);2(中国科学院大学计算机科学与技术学院北京100049)(ouyan@ict.ac.cn)出版日期:2019-12-01基金资助:国家重点研发计划项目(201 ...
    本站小编 Free考研考试 2022-01-01
  • 一种基于概率主题模型的恶意代码特征提取方法
    刘亚姝1,2,王志海1,侯跃然3,严寒冰41(北京交通大学计算机与信息技术学院北京100044);2(北京建筑大学电气与信息工程学院北京100044);3(北京邮电大学网络技术研究院北京100876);4(国家计算机网络应急技术处理协调中心北京100029)(ly_s8020@163.com)出版日 ...
    本站小编 Free考研考试 2022-01-01
  • 机会移动社交网络中基于群组构造的数据分发机制
    李婕1,洪韬1,王兴伟1,黄敏2,郭静11(东北大学计算机科学与工程学院沈阳110819);2(东北大学信息科学与工程学院沈阳110819)(lijie@mail.neu.edu.cn)出版日期:2019-11-12基金资助:国家自然科学基金项目(61502092,61872073);辽宁省高校创新 ...
    本站小编 Free考研考试 2022-01-01
  • 云环境下支持可更新加密的分布式数据编码存储方案
    严新成1,陈越1,巴阳1,贾洪勇2,朱彧11(战略支援部队信息工程大学郑州450001);2(郑州大学软件与应用科技学院郑州450001)(imtodshine@163.com)出版日期:2019-10-16基金资助:国家自然科学基金项目(61702549);河南省科技攻关计划基金项目(172102 ...
    本站小编 Free考研考试 2022-01-01
  • 基于数据纵向分布的隐私保护逻辑回归
    宋蕾1,马春光2,段广晗1,袁琪31(哈尔滨工程大学计算机科学与技术学院哈尔滨150001);2(山东科技大学计算机科学与工程学院山东青岛266590);3(齐齐哈尔大学通信与电子工程学院黑龙江齐齐哈尔161006)(songl@hrbeu.edu.cn)出版日期:2019-10-16基金资助:国家 ...
    本站小编 Free考研考试 2022-01-01
  • 面向绿色数据中心的能耗有效查询优化技术
    邢宝平1,吕梦圆1,金培权1,2,黄国锐3,岳丽华1,21(中国科学技术大学计算机科学与技术学院合肥230027);2(中国科学院电磁空间信息重点实验室合肥230027);3(中国人民解放军31002部队北京100081)(lmys@mail.ustc.edu.cn)出版日期:2019-09-10基 ...
    本站小编 Free考研考试 2022-01-01
  • 机器学习化数据库系统研究综述
    孟小峰,马超红,杨晨(中国人民大学信息学院北京100872)(xfmeng@ruc.edu.cn)出版日期:2019-09-10基金资助:国家自然科学基金项目(61532016,61532010,91846204,91646203,61762082);国家重点研发计划项目(2016YFB100060 ...
    本站小编 Free考研考试 2022-01-01
  • 基于生成式对抗网络的结构化数据表生成模型
    宋珂慧1,张莹1,张江伟2,袁晓洁11(南开大学计算机学院天津300350);2(新加坡国立大学计算机学院新加坡117417)(songkehui@dbis.nankai.edu.cn)出版日期:2019-09-10基金资助:国家自然科学基金项目(61772289,U1836109)AGenerat ...
    本站小编 Free考研考试 2022-01-01
  • 数据中心能耗模型及能效算法综述
    王继业1,周碧玉2,张法3,石翔3,曾楠1,刘志勇31(国家电网公司北京100031);2(中国科学院信息工程研究所北京100089);3(中国科学院计算技术研究所北京100190)(jiyewang@sgcc.com.cn)出版日期:2019-08-01基金资助:国家重点研发计划项目(2017YF ...
    本站小编 Free考研考试 2022-01-01