摘要:传统的多标记学习任务要求训练数据拥有完整的或者至少部分的真实标记,而真实标记耗费昂贵并且难以获取.不同于由昂贵受限的专家标注真实标记,众包环境下,多标记任务被分配给多个容易获取的非专家标注,学习目标是从有错误的非专家标注中估计样本的真实标记.这一问题的关键在于如何融合非专家标注.以往的众包学习主要集中在单标记任务上,忽视了多标记任务的标记相关性;而多标记任务上的众包工作集中在局部标记相关性的利用如标记共同出现的概率,标记间条件相关性,其估计很敏感地受到标记数量和质量的影响.考虑到多标记任务上多个标注者的标注结果整体上存在低秩结构关系,提出一种基于低秩张量矫正的方法.首先,将标注结果组织成三维的张量(样本,标记,标注者),用低秩张量补全的方法对收集到的标注做预处理,以同时达到两个目的:1)优化已有标注;2)补全标注者在其未标注的标记上的标注结果.然后,对所有标注融合,测试了3种融合方法,分别从不同的方面考虑标注的置信度.真实数据上的实验结果验证了所提方法的有效性.
Abstract:Previous multi-label learning requires that all or at least a subset of ground truth labels is given for the training example. This study investigates how to utilize the wisdom of crowds for multi-label tasks, where rather than high cost ground truth labels, imperfect annotations from crowds are collected for learning. The target is to infer the instances’ ground truth labels. The key challenge lies in how to aggregate the noisy annotations. Different from previous crowdsourcing works on single-label problems which ignore the correlation between labels, and multi-label works which consider local label correlations whose estimation heavily depends on the annotations’ quality and quantity, this study proposes an approach considering the global low rank structure of the crowds’ annotations. Regarding the crowds’ annotations for multi-label tasks as a three-way tensor (instance, label, worker), the crowds’ annotations are firstly preconditioned using low rank tensor completion, such that it is able to simultaneously correct the observed noisy annotations and at the same time predict the unobserved annotations. After that, the preconditioned annotations are aggregated through some heuristic methods. Three aggregation methods taking into account the crowds’ annotation confidence from different perspectives are tested. Experimental results on real world multi-label crowdsourcing data sets demonstrate the superiority of the proposed approach.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5673
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
多标记众包学习
本站小编 Free考研考试/2022-01-02
相关话题/数据 组织 质量 结构 环境
基于代理重加密的云数据访问授权确定性更新方案
摘要:有越来越多的用户选择云为其进行存储、运算、共享等数据处理工作,因此云端数据量与日俱增,其中不乏敏感数据和隐私信息.如何对用户托管于云端的数据进行授权管理,保证数据机密性、访问授权有效性等至关重要.为此,提出一种基于代理重加密(proxyre-encryption,简称PRE)的云端数据访问授权 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向流数据分类的在线学习综述
摘要:流数据分类旨在从连续不断到达的流式数据中增量学习一个从输入变量到类标变量的映射函数,以便对随时到达的测试数据进行准确分类.在线学习范式作为一种增量式的机器学习技术,是流数据分类的有效工具.主要从在线学习的角度对流数据分类算法的研究现状进行综述.具体地,首先介绍在线学习的基本框架和性能评估方法, ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向众包数据清洗的主动学习技术
摘要:传统方法多数采用机器学习算法对数据进行清洗.这些方法虽然能够解决部分问题,但存在计算难度大、缺乏充足的知识等局限性.近年来,随着众包平台的兴起,越来越多的研究将众包引入数据清洗过程,通过众包来提供机器学习所需要的知识.由于众包的有偿性,研究如何将机器学习算法与众包有效且低成本结合在一起是必要的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02人工智能赋能的数据管理技术研究
摘要:大数据时代,数据规模庞大、数据管理应用场景复杂,传统数据库和数据管理技术面临很大的挑战.人工智能技术因其强大的学习、推理、规划能力,为数据库系统提供了新的发展机遇.人工智能赋能的数据库系统通过对数据分布、查询负载、性能表现等特征进行建模和学习,自动地进行查询负载预测、数据库配置参数调优、数据分 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02人工智能赋能的数据管理、分析与系统专刊前言
摘要:大数据时代,数据规模庞大,数据管理应用场景复杂,传统数据库和数据管理技术面临很大的挑战.人工智能技术因其强大的学习、推理、规划能力,为数据库系统提供了新的发展机遇.专刊强调数据管理与人工智能的深度融合,研究人工智能赋能的数据库新技术和新型系统,包括两方面:(1)传统数据管理、数据分析技术及系统 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向关系数据库的智能索引调优方法
摘要:数据库索引是关系数据库系统实现快速查询的有效方式之一.智能索引调优技术可以有效地对数据库实例进行索引调节,从而保持数据库高效的查询性能.现有的方法大多利用了数据库实例的查询日志,它们先从查询日志中得到候选索引,再利用人工设计的模型选择索引,从而调节索引.然而,从查询日志中产生出的候选索引可能并 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向数据特征的内存跳表优化技术
摘要:跳表作为数据库中被广泛采用的索引技术,优点在于可以达到类似折半查找的复杂度O(log(n)).但是标准跳表算法中,结点的层数是通过随机算法生成的,这就导致跳表的性能是不稳定的.在极端情况下,查找复杂度会退化到O(n).这是因为经典跳表结构没有结合数据的特征.一个稳定的跳表结构应该充分考虑数据的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于相关性分析的工业时序数据异常检测
摘要:多维时间序列上的异常检测,是时态数据分析的重要研究问题之一.近年来,工业互联网中传感器设备采集并积累了大量工业时间序列数据,这些数据具有模式多样、工况多变的特性,给异常检测方法的效率、效果和可靠性均提出更高要求.序列间相互影响、关联,其隐藏的相关性信息可以用于识别、解释异常问题.基于此,提出一 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向多维稀疏数据仓库的欺诈销售行为挖掘
摘要:分销渠道系统中,产品制造商会分配给销售额较大的分销商更多返点利润鼓励销售,而分销商之间可能会联合起来将多个分销商的销售业绩累计在其中一个分销商上,获取高额利润,这种商业欺诈行为被称为挂单或窜货.由于数据中大量正常极值点的存在,使得传统异常探测算法很难区分正常极值和由挂单导致的异常极值;另外,多 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02学习式数据库系统:挑战与机遇
摘要:通用的数据库系统为不同的应用需求与数据类型提供统一的处理方式,在取得了巨大成功的同时,也暴露了一定的局限性:由于没有结合具体应用的数据分布与工作负载,系统往往难以保证性能的最优.为了解决这一问题,"学习式数据库系统"成为了目前数据库领域的研究热点,它利用机器学习技术有效捕获负载与数据的特性,从 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02