[论文解读] Batch Active Learning at Scale
引入 Cluster-Margin,一种可扩展的批量主动学习方法,使用分层聚类来多样化大量低置信样本,在 100K–1M 批量规模下实现显著的标注效率。
The ability to train complex and highly effective models often requires an abundance of training data, which can easily become a bottleneck in cost, time, and computational resources. Batch active learning, which adaptively issues batched queries to a labeling oracle, is a common approach for addressing this problem. The practical benefits of batch sampling come with the downside of less adaptivity and the risk of sampling redundant examples within a batch -- a risk that grows with the batch size. In this work, we analyze an efficient active learning algorithm, which focuses on the large batch setting. In particular, we show that our sampling method, which combines notions of uncertainty and diversity, easily scales to batch sizes (100K-1M) several orders of magnitude larger than used in previous studies and provides significant improvements in model training efficiency compared to recent baselines. Finally, we provide an initial theoretical analysis, proving label complexity guarantees for a related sampling method, which we show is approximately equivalent to our sampling method in specific settings.
研究动机与目标
- 阐明在训练大规模模型时数据标注的瓶颈,并将批量主动学习作为一种务实的解决方案。
- 提出一种可扩展的采样方法,将不确定性(margin)与通过聚类实现的多样性结合,用于处理极大批量规模。
- 在大规模多标签数据集和小规模多类数据集上,显示出相对于基线的显著标注效率提升。
- 提供将基于体积的采样概念与 Cluster-Margin 联系起来的初步理论分析,并讨论标注复杂度的保证。
提出的方法
- Cluster-Margin 使用边际分数选择一组低置信样本,并通过在嵌入上对未标记样本池进行层次聚合聚类(HAC)来实现多样性。
- HAC 作为对所有未标记数据的一次预处理步骤运行;然后通过轮换选择在低边际集合中表示的聚类来进行采样。
- 边际分数定义为前两类概率之差。
- 在每次迭代中,通过从所选聚类中的每个聚类随机选择一个样本,直到达到目标批量大小 k_t。
- 聚类和嵌入步骤的设计旨在使每次迭代的计算在非常大的 n(例如 Open Images 约 9M 张图像)下仍然可行。
- 理论讨论引入一个 beta-高效的基于体积的采样器,并在特定分布下将其与 Cluster-Margin 联系起来,带来潜在的标注复杂度收益。
实验结果
研究问题
- RQ1如何在不牺牲信息性或多样性的前提下,将批量主动学习扩展到非常大的批量大小(10^5–10^6)?
- RQ2将不确定性(margin)与基于 HAC 的聚类多样性结合,是否在大规模和小规模数据集上相较于现有基线(BADGE、CoreSet、Margin)提高标注效率?
- RQ3一个预处理的 HAC 步骤是否能在多次迭代中持续提供加速并维持或提升性能?
- RQ4在低维嵌入空间中,Cluster-Margin 与基于体积的采样之间有哪些理论保证或关系?
主要发现
- Cluster-Margin 在 Open Images 上以 100K 和 1M 的批量规模取得显著的标注效率提升,与基线相比,在 1M 设置下将所需标注数量减少多达 60%。
- 在 Open Images 上,Cluster-Margin 仅需约 920K 标注样本即可达到与 Margin 约 1.3M 相似的性能,意味着在 100K 批量大小下为同一目标减少约 29% 的标注数量。
- 在小规模 CIFAR10/100 和 SVHN 实验中,Cluster-Margin 具有竞争力或优于基线,在大多数设置中超越 CoreSet 和 BADGE。
- 对相关的 Cluster-MarginV 方法的理论分析表明,在低维嵌入空间中,beta-高效的基于体积的采样可以将标注复杂度降低一个因子约为 d/log(k),在某些条件下与 Cluster-Margin 相连。
- 在各基线中,Margin 采样有时也很强,但在大批量 Open-Image 实验中,Cluster-Margin 始终优于其他方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。