自适应主动半监督学习方法

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-01-02

摘要:主动学习从大量无标记样本中挑选样本交给专家标记.现有的批抽样主动学习算法主要受3个限制：（1）一些主动学习方法基于单选择准则或对数据、模型设定假设，这类方法很难找到既有不确定性又有代表性的未标记样本；（2）现有批抽样主动学习方法的性能很大程度上依赖于样本之间相似性度量的准确性，例如预定义函数或差异性衡量；（3）噪声标签问题一直影响批抽样主动学习算法的性能.提出一种基于深度学习批抽样的主动学习方法.通过深度神经网络生成标记和未标记样本的学习表示和采用标签循环模式，使得标记样本与未标记样本建立联系，再回到相同标签的标记样本.这样同时考虑了样本的不确定性和代表性，并且算法对噪声标签具有鲁棒性.在提出的批抽样主动学习方法中，算法使用的子模块函数确保选择的样本集合具有多样性.此外，自适应参数的优化，使得主动学习算法可以自动平衡样本的不确定性和代表性.将提出的主动学习方法应用到半监督分类和半监督聚类中，实验结果表明，所提出的主动学习方法的性能优于现有的一些先进的方法.

Abstract:Active learning algorithms attempt to overcome the labeling bottleneck by asking queries from a large collection of unlabeled examples. Existing batch mode active learning algorithms suffer from three limitations: (1) the models with assumption on data are hard in finding images that are both informative and representative; (2) the methods that are based on similarity function or optimizing certain diversity measurement may lead to suboptimal performance and produce the selected set with redundant examples; (3) the problem of noise labels has been an obstacle for active learning algorithms. This study proposes a novel batch mode active learning method based on deep learning. The deep neural network generates the representations (embeddings) of labeled and unlabeled examples, and label cycle mode is adopted by connecting the embeddings from labeled examples to those of unlabeled examples and back at the same class, which considers both informativeness and representativeness of examples, as well as being robust to noisy labels. The proposed active learning method is applied to semi-supervised classification and clustering. The submodular function is designed to reduce the redundancy of the selected examples. Moreover, the query criteria of weighting losses are optimized in active learning, which automatically trade off the balance of informative and representative examples. Specifically, batch mode active scheme is incorporated into the classification approaches, in which the generalization ability is improved. For semi-supervised clustering, the proposed active scheme for constraints is used to facilitate fast convergence and perform better than unsupervised clustering. To validate the effectiveness of the proposed algorithms, extensive experiments are conducted on diversity benchmark datasets for different tasks, and the experimental results demonstrate consistent and substantial improvements over the state-of-the-art approaches.

PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5890

相关话题/优化 数据 实验 样本 标记

领限时大额优惠券,享本站正版考研考试资料!
优惠券领取后72小时内有效，10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材，产品类型包含电子书、题库、全套资料以及视频，无论您是考研复习、考证刷题，还是考前冲刺等，不同类型的产品可满足您学习上的不同需求。 ...
考试优惠券本站小编 Free壹佰分学习网 2022-09-19
面向时序图数据的快速环枚举算法
摘要:时序图数据是一类边上带有时间戳信息的图数据.在时序图数据中，时序环是边满足时间戳递增约束的回路.时序环枚举在现实中有着很多应用，它可以帮助挖掘金融网络中的欺诈行为.此外，研究时序环的数量对于刻画不同时序图的特性也有重要作用.基于2018年由RohitKumar等人提出的时序环枚举算法（2SCE ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于不相似性度量优化的密度峰值聚类算法
摘要:密度峰值聚类（clusteringbyfastsearchandfindofdensitypeaks，简称DPC）是一种基于局部密度和相对距离属性快速寻找聚类中心的有效算法.DPC通过决策图寻找密度峰值作为聚类中心，不需要提前指定类簇数，并可以得到任意形状的簇聚类.但局部密度和相对距离的计算都 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
数据驱动的移动应用用户接受度建模与预测
摘要:应用市场（appmarket）已经成为互联网环境下软件应用开发和交付的一种主流模式.相对于传统模式，应用市场模式下，软件的交付周期更短，用户的反馈更快，最终用户和开发者之间的联系更加紧密和直接.为应对激烈的竞争和动态演变的用户需求，移动应用开发者必须以快速迭代的方式不断更新应用，修复错误缺陷， ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
函数级数据依赖图及其在静态脆弱性分析中的应用
摘要:数据流分析是二进制程序分析的重要手段，但传统数据依赖图（DDG）构建的时间与空间复杂度较高，限制了可分析代码的规模.提出了函数级数据依赖图（FDDG）的概念，并设计了函数级数据依赖图的构建方法.在考虑函数参数及参数间相互依赖关系的基础上，将函数作为整体分析，忽略函数内部的具体实现，显著缩小了数 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
类属型数据核子空间聚类算法
摘要:现有的类属型数据子空间聚类方法大多基于特征间相互独立假设，未考虑属性间存在的线性或非线性相关性.提出一种类属型数据核子空间聚类方法.首先引入原作用于连续型数据的核函数将类属型数据投影到核空间，定义了核空间中特征加权的类属型数据相似性度量.其次，基于该度量推导了类属型数据核子空间聚类目标函数，并 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于采样的在线大图数据收集和更新
摘要:互联网中，以网页、社交媒体和知识库等为载体呈现的大量非结构化数据可表示为在线大图.在线大图数据的获取包括数据收集和更新，是大数据分析与知识工程的重要基础，但面临着数据量大、分布广、异构和变化快速等挑战.基于采样技术，提出并行、自适应的在线大图数据收集和更新方法.首先，将分支限界方法与半蒙特卡罗 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
分级可逆的关系数据水印方案
摘要:关系数据可逆水印技术是保护数据版权的方法之一.它克服了传统的关系数据数字水印技术的缺点，不仅可以声明版权，而且可以恢复原始数据.现有方法在恢复原始数据时不能控制数据恢复的程度，无法调节数据的可用性.提出了一种分级可逆的关系数据水印方案，定义了数据质量等级来反映水印嵌入对数据可用性的影响，设计了 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
申威26010众核处理器上一维FFT实现与优化
摘要:根据申威26010众核处理器的特点提出了基于两层分解的一维FFT众核并行算法.该算法基于迭代的StockhamFFT计算框架和Cooley-TukeyFFT算法，将大规模FFT分解成一系列的小规模FFT来计算，并通过设计合理的任务划分方式、寄存器通信、双缓冲以及SIMD向量化等与计算平台相关的 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于物理及数据驱动的流体动画研究
摘要:主要针对近年来流行的基于物理及数据驱动的各种流体动画模拟算法及其应用给出了一个全面的前沿性综述.首先，对传统的基于物理的流体模拟加速方法进行了综述和总结，同时给出了此类方法中各种算法的优劣性分析；其次，对现有的基于数据驱动的多种算法进行了综述和分析.特别地，将现有的数据驱动方法归结为3类，即数 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
并行帧缓存设备:基于多核CPU的Xorg并行显示优化
摘要:Xorg图形服务器软件在帧缓存设备上采用单线程绘制模式，难以发挥多核CPU的性能.针对多核CPU上的帧缓存设备，设计了带有互斥操作的任务队列，并按照屏幕划分的方法，实现了Xorg的矩形填充操作在帧缓存设备上基于私有任务队列的多线程并行化，并实现了主从线程负载均衡.x11perf测试结果表明，该 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02