(西北工业大学计算机学院 西安 710072) (大数据存储与管理工业和信息化部重点实验室(西北工业大学) 西安 710129) (yaolixu@mail.nwpu.edu.cn)
出版日期: 2020-01-01基金资助:国家重点研发计划项目(2018YFB1003403);国家自然科学基金项目(61732014,61672432);陕西省自然科学基础研究计划项目(2018JM6086)An Approach for Reconciling Inconsistent Pairs Based on Factor Graph
Xu Yaoli, Li Zhanhuai, Chen Qun, Wang Yanyan, Fan Fengfeng(School of Computer Science and Engineering, Northwestern Polytechnical University, Xi’an 710072) (Key Laboratory of Big Data Storage and Management (Northwestern Polytechnical University), Ministry of Industry and Information Technology, Xi’an 710129)
Online: 2020-01-01Supported by:This work was supported by the National Key Research and Development Program (2018YFB1003403), the National Natural Science Foundation of China (61732014,61672432), and the Natural Science Basic Research Plan in Shaanxi Province of China (2018JM6086).摘要/Abstract
摘要: 实体解析(entity resolution, ER)是数据集成和清洗系统的关键基础问题.尽管有大量实体解析方法提出,但这些方法依赖隐式或显式的假设或采用不同的解析策略.对相同的实体解析任务进行处理后,它们的结论存在冲突,产生了大量的不一致记录对.在没有给定标记数据的情况下,进行这类记录对的消歧处理具有很大的挑战:一方面当标签数据缺失时,评估现存方法的解析效果并选出最优的不可行,另一方面尽管可选的方法是协调这些冲突结果以得到一致的标记方案,但有效且融合所有提示信息的消歧策略还有待研究.为此,提出了一种基于因子图的不一致记录对消歧方法.该方法首先对某给定的实体解析任务使用现存的实体解析技术进行实体解析,得到一致或不一致的记录对;接着,用核密度估计、匹配信息传递等方法输出与不一致记录对是否匹配相关的特征,并把这些建模为因子图的因子函数,该因子图是一个带因子权重的联合概率分布;最后基于最大似然估计方法估计出各因子的权重,并基于该分布对不一致记录对进行消歧处理.实验结果表明:在真实的数据集合,该方法有效且优于现存最好的方法.
参考文献
相关文章 15
| [1] | 夏丁,王亚沙,赵梓棚,崔达. 面向智慧民生领域的增量交互式数据集成方法[J]. 计算机研究与发展, 2017, 54(3): 586-596. |
| [2] | 李国庆,黄震春. 遥感大数据的基础设施:集成、管理与按需服务[J]. 计算机研究与发展, 2017, 54(2): 267-283. |
| [3] | 孟小峰,杜治娟. 大数据融合研究:问题与挑战[J]. 计算机研究与发展, 2016, 53(2): 231-246. |
| [4] | 周宁南,盛万兴,刘科研,张孝,王珊. 大数据集成中确定数据准确属性值的WR方法[J]. 计算机研究与发展, 2016, 53(2): 449-458. |
| [5] | 王宁, 李杰. 大数据环境下用于实体解析的两层相关性聚类方法[J]. 计算机研究与发展, 2014, 51(9): 2108-2116. |
| [6] | 应文豪, 许 敏, 王士同, 邓赵红,. 在大规模数据集上进行快速自适应同步聚类[J]. 计算机研究与发展, 2014, 51(4): 707-720. |
| [7] | 许敏,邓赵红,王士同,史荧中. MMCKDE:基于数据流的m-混合聚类核概率密度估计[J]. 计算机研究与发展, 2014, 51(10): 2277-2294. |
| [8] | 徐志伟, 谢 毅, 海 沫, 李晓林, 袁子牧,. 人机物三元计算中的通用计算账户与个人信息资产代数[J]. 计算机研究与发展, 2013, 50(6): 1135-1146. |
| [9] | 董永权, 李庆忠, 丁艳辉, 彭朝晖,. 基于约束条件随机场的Web数据语义标注[J]. , 2012, 49(2): 361-371. |
| [10] | 丁国辉 王国仁 赵宇海. 基于使用信息和聚类方法的多模式集成[J]. , 2010, 47(5): 824-831. |
| [11] | 马安香 张 斌 高克宁 齐 鹏 张 引. 基于结果模式的Deep Web数据抽取[J]. , 2009, 46(2): 280-288. |
| [12] | 王立宏, 赵宪佳, 武栓虎,. 基于EM的启动子序列半监督学习[J]. , 2009, 46(11): 1942-1948. |
| [13] | 王 博 郭 波 . 自治异构数据源聚集模型与算法研究[J]. , 2008, 45(9): 1546-1553. |
| [14] | 赵晓非 黄志球. 基于CWM的元数据的形式化推理框架研究[J]. , 2007, 44(5): 829-836. |
| [15] | 金 鑫 金远平. 一种改进的基于约束关系的XML查询重写算法研究[J]. , 2007, 44(5): 845-852. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4087
