QUICK REVIEW

[论文解读] Parting with Illusions about Deep Active Learning

Sudhanshu Mittal, Maxim Tatarchenko|arXiv (Cornell University)|Dec 11, 2019

Machine Learning and Algorithms参考文献 47被引用 28

一句话总结

本文通过在现实条件下重新实现最先进方法，对深度主动学习（DAL）方法进行了批判性评估，发现当应用现代数据增强和半监督学习（SSL）时，其性能提升效果消失。作者表明，DAL方法在低预算场景下通常表现不如随机采样，并提出了一套修订后的评估协议，以确保未来研究中实现公平且有意义的基准测试。

ABSTRACT

Active learning aims to reduce the high labeling cost involved in training machine learning models on large datasets by efficiently labeling only the most informative samples. Recently, deep active learning has shown success on various tasks. However, the conventional evaluation scheme used for deep active learning is below par. Current methods disregard some apparent parallel work in the closely related fields. Active learning methods are quite sensitive w.r.t. changes in the training procedure like data augmentation. They improve by a large-margin when integrated with semi-supervised learning, but barely perform better than the random baseline. We re-implement various latest active learning approaches for image classification and evaluate them under more realistic settings. We further validate our findings for semantic segmentation. Based on our observations, we realistically assess the current state of the field and propose a more suitable evaluation protocol.

研究动机与目标

挑战当前认为深度主动学习能显著降低标注成本的普遍认知，通过在更现实的实验条件下重新评估方法。
研究现代数据增强和半监督学习（SSL）对主动学习方法性能的影响，这些问题在当前基准中常被忽视。
评估主动学习在低预算场景下的有效性——这是实际部署中的关键场景，因为此时标注成本最为高昂。
评估主动学习是否能为高成本标注任务（如语义分割）带来实际益处，因为在这些任务中效率提升最为关键。
提出一套修订后的、更严格的评估协议，以确保未来主动学习方法能够实现公平比较和准确评估。

提出的方法

使用一致的架构、数据增强和训练流程，重新实现用于图像分类和语义分割的最先进主动学习方法。
在所有方法中一致应用现代数据增强技术（如 RandAugment），以评估其对性能排名的影响。
将最先进的半监督学习（SSL）方法——如一致性训练和伪标签法——整合到主动学习流程中，以评估其相对收益。
在语义分割中评估图像级和多边形级标注范式，其中每次查询仅标注图像的一个区域。
在图像级和多边形级设置中均使用基于熵的不确定性与随机采样作为查询策略，比较不同设置下的性能表现。
建立了一套新的评估协议，包含四个核心原则：多样化的数据集覆盖、使用最新增强技术、与SSL的直接比较，以及包含低预算场景。

实验结果

研究问题

RQ1在图像分类任务中，现代数据增强的使用如何影响主动学习方法的相对性能排名？
RQ2近期半监督学习的进展在多大程度上提升了主动学习的性能？这些进展是否掩盖了新型主动学习查询策略带来的收益？
RQ3在低预算场景下，主动学习方法表现如何——尤其是在标注预算较小的情况下，此时它们本应最为关键？
RQ4对于语义分割等高成本标注任务，主动学习能否提供实际益处？这类任务的标注耗时且昂贵。
RQ5为何许多主动学习方法在低预算设置下无法超越随机采样？其背后可能存在的根本偏差是什么？

主要发现

当一致应用现代数据增强时，所有主动学习方法的性能几乎完全相同，其相对性能差异可忽略不计。
在标准主动学习流程中应用半监督学习方法，其性能提升显著高于任何近期提出的主动学习查询策略。
在低预算场景下，主动学习方法通常表现不如随机采样，表明查询策略引入的选择偏差可能损害模型泛化能力。
对于语义分割任务，使用随机采样的图像级标注与SSL（如 SSL-Random-Image）的组合，优于所有多边形级主动学习策略，包括基于熵的选取方法。
SSL与随机采样的组合始终优于所有主动学习方法，即使这些方法使用基于不确定度或表示的查询策略。
当前深度主动学习的评估协议存在根本性缺陷，导致对方法性能和领域现状的结论产生误导。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。