[论文解读] Active Learning for Convolutional Neural Networks: A Core-Set Approach
将卷积神经网络的主动学习定义为核心集合选择,并展示基于贪心的 k-center 方法在图像分类任务上取得了强劲的性能,在批量设置中超越了基线方法。
Convolutional neural networks (CNNs) have been successfully applied to many recognition and learning tasks using a universal recipe; training a deep model on a very large dataset of supervised examples. However, this approach is rather restrictive in practice since collecting a large set of labeled images is very expensive. One way to ease this problem is coming up with smart ways for choosing images to be labelled from a very large collection (ie. active learning). Our empirical study suggests that many of the active learning heuristics in the literature are not effective when applied to CNNs in batch setting. Inspired by these limitations, we define the problem of active learning as core-set selection, ie. choosing set of points such that a model learned over the selected subset is competitive for the remaining data points. We further present a theoretical result characterizing the performance of any selected subset using the geometry of the datapoints. As an active learning algorithm, we choose the subset which is expected to yield best result according to our characterization. Our experiments show that the proposed method significantly outperforms existing approaches in image classification experiments by a large margin.
研究动机与目标
- 说明标注成本导致大规模 CNN 训练数据标注的困难。
- 提出将主动学习重新表述为核心集合选择,以解决 CNN 中的批量查询问题。
- 建立将核心集合损失与数据几何性相关联的理论界限,并证明其在 CNN 中的相关性。
- 提出一种高效的基于 k-center 的算法,在不使用标签信息的情况下选择具有信息量的批次。
- 在标准图像数据集上展示对现有主动学习基线的经验性优势。
提出的方法
- 将包含未标记数据池和标注预算的主动学习表述为最小化全数据经验损失与子集经验损失之间的核心集合损失。
- 建立一个基于 Lipschitz 的界限,表明核心集合损失可以被所选子集的覆盖半径所界定。
- 证明对该界的最小化等价于求解一个 k-Center(极小极大设施位置)问题,并为提高效率而应用贪心的 2-OPT 方法。
- 通过可选地求解混合整数程序以获得更紧的界限(MIP)并处理离群点,从而提高鲁棒性。
- 使用距离度量定义为最终全连接层激活之间的 L2 距离来测量数据点相似度,并在每次迭代后从头开始训练 CNN(VGG-16)。
- 在 CIFAR 与 SVHN 数据集上对全监督和弱监督(Ladder 网络)设置进行实验。
实验结果
研究问题
- RQ1能否将 CNN 的主动学习有效地表述为核心集合选择问题?
- RQ2基于批量的 k-center 获取策略是否优于基于不确定性的 CNN 批量主动学习方法?
- RQ3核心集合损失、数据几何性与 CNN 训练性能之间的理论关系是什么?
- RQ4在标准视觉数据集上,所提出的方法在全监督与弱监督 CNN 训练中的表现如何?
主要发现
- 核心集合的表述导致一个界限,用于比较全数据损失与子集损失,该界限依赖于覆盖半径和样本大小。
- 对核心集合界的最小化等价于一个 k-Center 问题,其中贪心的 2-OPT 解法提供了高效的近似。
- 实证结果显示方法达到最先进的性能,在图像分类实验中显著优于现有基线。
- 该方法在全监督和弱监督设置中都有效,在弱监督情形下由于更好的特征几何性而获得更大增益。
- 基于批量的不确定性基线(如 BMDR、基于熵的方法)在 CNNs 中的表现不及核心集合方法,凸显了批量选择中样本相关性的影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。