删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

MTruths:Web信息多真值发现方法

中国人民大学 辅仁网/2017-07-05

文献详情
MTruths:Web信息多真值发现方法
外文标题:MTruths:An Approach of Multiple Truths Finding from Web Information
文献类型:期刊
作者:马如霞[1]孟小峰[2]王璐[3]史英杰[4]
机构:中国人民大学信息学院北京 100872; 首都师范大学教育技术系北京 100048;中国人民大学信息学院北京 100872;北京服装学院信息工程学院北京 100029

通讯作者:Meng, Xiaofeng(xfmeng@ruc.edu.cn)
年:2016
期刊名称:计算机研究与发展
卷:52
期:12
页码范围:2858-2866
增刊:正刊
收录情况:EI(20165203163163)中文核心期刊要目总览中国科技核心期刊
所属部门:信息学院
语言:中文
ISSN:1000-1239
链接地址:http://d.g.wanfangdata.com.cn/Periodical_jsjyjyfz201612019.aspx
DOI:10.7544/issn1000-1239.2016.20150614
人气指数:1
浏览次数:1
基金:国家自然科学基金项目(61379050,91224008,61502279);国家“八六三”高技术研究发展计划基金项目(2013AA013204);高等学校博士学科点专项科研基金项目(20130004130001);中国人民大学科学研究基金项目(11XNL010) This work was supported by the National Natural Science Foundation of China; the National High Technology Research and Development Program of China (863 Program); the Specialized Research Fund for the Doctoral Program of Higher Education of China; the Research Funds of Renmin University of China (11XNL010).
关键词:真值发现;数据冲突;单值属性;多值属性;数据源质量
摘要:Web已成为一个浩瀚的信息海洋,其信息分散在不同的数据源中。不同数据源常常为同一对象实体提供冲突的属性值。如何从这些冲突属性值中找到真值被称为真值发现问题。根据属性值数量可将对象属性分为单值属性和多值属性,现有的多数真值发现算法对单值属性的真值发现比较有效。针对多值属性的真值发现问题,提出了一个多真值发现方法MTruths,该方法将多真值发现问题转化为一个最优化问题,其目标是:各对象的真值与各数据源提供的观察值之间的相似性加权和达到最大。对象真值求解过程中,提出2种方法求真值列表的最优解:基于枚举的方法和贪心算法。与已有方法不同的是MTruths可以直接得到对象的多个真值。最后,通过图书和电影2个真实数据集上的实验表明,MTruths的2种实现方法的准确性以及贪心算法的效率优于现有真值发现方法。
作者其他论文



差分隐私保护下一种精确挖掘top-k频繁模式方法.张啸剑;王淼;孟小峰.计算机研究与发展.2014,51(1),104-114.
大规模图数据可达性索引技术:现状与展望.富丽贞;孟小峰.计算机研究与发展.2015,52(1),116-129.
海量高维向量的并行Top-k连接查询.马友忠;慈祥;孟小峰.计算机学报.2015,38(1),86-98.
基于小数据的在线用户兴趣长程演化研究.李勇;孟小峰;刘继,等.计算机研究与发展.2015,779-788.
云数据管理索引技术研究.马友忠;孟小峰.软件学报.2015,26(1),145-166.

相关话题/计算机 数据 北京 信息学院 中国人民大学