删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于数据源分类可信性的真值发现方法研究

中国人民大学 辅仁网/2017-07-05

文献详情
基于数据源分类可信性的真值发现方法研究
外文标题:Truth Discovery Based Credibility of Data Categories on Data Sources
文献类型:期刊
作者:马如霞[1]孟小峰[2]
机构:[1]中国人民大学信息学院
[2]首都师范大学教育技术系

通讯作者:Meng, Xiaofeng
年:2015
期刊名称:计算机研究与发展
卷:52
期:9
页码范围:1931-1940
增刊:增刊
收录情况:EI(20154601528784)中文核心期刊要目总览中国科技核心期刊CSCD(CSCD:5515906)
所属部门:信息学院
语言:中文
ISSN:1000-1239
链接地址:http://d.g.wanfangdata.com.cn/Periodical_jsjyjyfz201509001.aspx
DOI:10.7544/issn1000-1239.2015.20140684
基金:国家自然科学基金项目; 国家"八六三"高技术研究发展计划基金项目; 高等学校博士学科点专项科研基金项目; 中国人民大学科学研究基金项目
关键词:真值发现;数据冲突;数据源分类可信性;信息质量;数据融合
摘要:网络的普及和电子商务的发展改变了人们信息获取以及消费的方式.Web已经成为大多数人获取信息的重要来源.与此同时,互联网信息质量问题也逐渐凸显.Web中存在大量过时、错误、虚假、片面的信息.其中,不同网站为相同对象提供冲突信息的问题尤为突出.如何从这些冲突信息中找到正确信息成为亟待解决的问题,这类问题又被称为真值发现问题.通过对现有真值发现问题解决方法的调研,发现现有方法均未考虑数据源分类可信性差异对真值发现的影响.因此,提出基于数据源分类可信性的真值发现问题.提出2种方法探测数据源分类可信性差异,并采用贝叶斯的方法迭代计算数据源分类可信性和属性值准确性.另外,通过考虑数据源覆盖率和对象难度对真值发现的影响,进一步提高真值发现算法的准确性.一个真实数据集的实验结果表明,所提方法可以显著提高真值发现的准确性.
作者其他论文



差分隐私保护下一种精确挖掘top-k频繁模式方法.张啸剑;王淼;孟小峰.计算机研究与发展.2014,51(1),104-114.
大规模图数据可达性索引技术:现状与展望.富丽贞;孟小峰.计算机研究与发展.2015,52(1),116-129.
海量高维向量的并行Top-k连接查询.马友忠;慈祥;孟小峰.计算机学报.2015,38(1),86-98.
基于小数据的在线用户兴趣长程演化研究.李勇;孟小峰;刘继,等.计算机研究与发展.2015,779-788.
云数据管理索引技术研究.马友忠;孟小峰.软件学报.2015,26(1),145-166.

相关话题/信息 计算机 数据 中文 中国人民大学