QUICK REVIEW

[论文解读] Rethinking deep active learning: Using unlabeled data at model training

Oriane Siméoni, Mateusz Budnik|arXiv (Cornell University)|Nov 19, 2019

Machine Learning and Algorithms参考文献 37被引用 19

一句话总结

本文提出了一种新颖的深度主动学习框架，通过在每个主动学习周期中结合无监督预训练和半监督学习，同时利用已标注和未标注数据进行模型训练。实验表明，该方法可实现显著的准确率提升——在标准基线基础上最高提升15%，超越了不同采样策略之间的差异，甚至在每类仅有一个标签的情况下实现接近监督学习的性能。

ABSTRACT

Active learning typically focuses on training a model on few labeled examples alone, while unlabeled ones are only used for acquisition. In this work we depart from this setting by using both labeled and unlabeled data during model training across active learning cycles. We do so by using unsupervised feature learning at the beginning of the active learning pipeline and semi-supervised learning at every active learning cycle, on all available data. The former has not been investigated before in active learning, while the study of latter in the context of deep learning is scarce and recent findings are not conclusive with respect to its benefit. Our idea is orthogonal to acquisition strategies by using more data, much like ensemble methods use more models. By systematically evaluating on a number of popular acquisition strategies and datasets, we find that the use of unlabeled data during model training brings a surprising accuracy improvement in image classification, compared to the differences between acquisition strategies. We thus explore smaller label budgets, even one label per class.

研究动机与目标

研究在深度主动学习中，于模型训练期间使用未标注数据的影响，突破传统做法中仅将未标注数据保留用于采样选择的惯例。
评估无监督预训练与半监督学习是否能在低标签设置下显著提升模型准确率。
确定使用未标注数据带来的性能增益是否超过传统采样策略之间的差异。
探索极端标签预算（如每类仅一个标签）在图像分类任务中的可行性。

提出的方法

在流程开始时，对全部数据进行一次无监督特征学习（自监督预训练），以初始化模型权重。
在每个主动学习周期中应用半监督学习，通过基于标签传播的方法，对所有可用数据——包括已标注和未标注数据——进行联合训练。
将预训练与半监督学习整合到统一的训练流程中，取代仅基于已标注数据的标准监督学习。
采用多种采样策略，包括不确定性采样、核心集选择以及一种新型流形基于方法（jLP），以评估方法的鲁棒性。
采用简单、模块化的流程设计，以确保可比性，并隔离预训练与半监督学习的影响。
在多个数据集（SVHN、CIFAR-10、CIFAR-100、MNIST）和标签预算下评估性能，包括每类仅一个标签的情况。

实验结果

研究问题

RQ1与标准方法相比，在模型训练期间使用未标注数据是否能显著提升深度主动学习的分类准确率？
RQ2无监督预训练与半监督学习相结合，是否能带来比采样策略差异更大的性能增益？
RQ3当在训练中使用未标注数据时，随机采样策略与主动学习策略的性能相比如何？
RQ4在结合预训练与半监督学习的情况下，仅使用每类一个已标注样本的影响是什么？
RQ5性能提升源于流形结构建模，还是仅仅因为训练中使用了未标注数据？

主要发现

通过在训练中结合已标注和未标注数据进行半监督学习，在CIFAR-10数据集上每类100个标签的预算下，相比标准基线，准确率最高提升15%。
在CIFAR-10数据集上每类100个标签的预算下，PRE + SEMI方法仅用一个训练周期即可达到标准基线需四个周期才能实现的性能，显著降低标注成本。
在MNIST数据集上仅使用每类一个标签时，随机采样策略结合PRE + SEMI在两个训练周期后达到90.89%的准确率，比所有未使用SEM I的策略高出40%。
半监督学习带来的性能提升极为显著，甚至超过了所有评估采样策略之间的性能差异。
无监督预训练在早期训练周期中收益最大，随着模型准确率提升，收益逐渐减少。
研究表明，在低数据设置下，训练过程中使用未标注数据的影响远大于采样策略选择的影响。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。