[论文解读] CEREALS - Cost-Effective REgion-based Active Learning for Semantic Segmentation
CEREALS 提出了一种低成本的基于区域的主动学习框架,用于语义分割,通过使用学习到的成本模型和空间一致的不确定性估计,选择高信息量、低成本的图像区域,从而最小化人工标注工作量。在 Cityscapes 数据集上,仅使用 17% 的标注工作量(以点击次数衡量),即可实现全训练集 95% 的 mIoU 性能。
State of the art methods for semantic image segmentation are trained in a supervised fashion using a large corpus of fully labeled training images. However, gathering such a corpus is expensive, due to human annotation effort, in contrast to gathering unlabeled data. We propose an active learning-based strategy, called CEREALS, in which a human only has to hand-label a few, automatically selected, regions within an unlabeled image corpus. This minimizes human annotation effort while maximizing the performance of a semantic image segmentation method. The automatic selection procedure is achieved by: a) using a suitable information measure combined with an estimate about human annotation effort, which is inferred from a learned cost model, and b) exploiting the spatial coherency of an image. The performance of CEREALS is demonstrated on Cityscapes, where we are able to reduce the annotation effort to 17%, while keeping 95% of the mean Intersection over Union (mIoU) of a model that was trained with the fully annotated training set of Cityscapes.
研究动机与目标
- 降低为语义分割创建大规模全标注训练集所涉及的高昂人工标注成本。
- 解决大量未标注数据与像素级标注过程昂贵、耗时之间的不平衡问题。
- 开发一种主动学习策略,以空间一致的方式平衡信息增益与标注成本。
- 通过聚焦于信息丰富的图像区域而非整张图像或随机补丁,最小化标注工作量。
- 证明将不确定性估计与学习到的成本模型结合,可在语义分割中实现高效的数据选择。
提出的方法
- 使用一个学习到的代价预测卷积神经网络(CNN),以估计每张图像区域的人工标注工作量,建模为所需点击次数。
- 应用基于区域的采样策略,将图像划分为非重叠的补丁(例如 128×128 或 256×256),以实现局部化、成本感知的选区。
- 通过乘法融合策略,将基于不确定性的获取函数(如熵和投票熵)与估计的标注成本相结合。
- 迭代选择最具有信息量且成本最低的图像区域进行标注,从而以最少的人工输入训练语义分割模型。
- 利用先前标注步骤的真值反馈来优化代价模型,提升未来采样决策的准确性。
- 通过融合不确定性与代价估计中的超参数 α,优化信息增益与成本之间的权衡。
实验结果
研究问题
- RQ1主动学习是否能在保持高模型性能的前提下减少语义分割的标注工作量?
- RQ2将不确定性估计与学习到的代价模型结合,如何提升数据选择的效率?
- RQ3在语义分割的主动学习中,平衡信息含量与标注成本的最优区域尺寸是什么?
- RQ4与随机采样或仅基于熵的采样相比,成本感知采样在标注工作量和 mIoU 表现上表现如何?
- RQ5学习到的代价模型在不牺牲模型准确率的前提下,最多可减少多少标注次数?
主要发现
- CEREALS 仅使用 17% 的标注工作量(以点击次数衡量),即可实现全 Cityscapes 数据集训练模型 95% 的平均交并比(mIoU)性能。
- 与全量标注相比,该方法将标注成本降低了 83%,mIoU 性能仅下降 5%。
- 采用 128×128 区域和熵不确定性与预测代价的乘法融合策略时,CEREALS 实现了 c95 = 17.07%,即仅需总点击工作量的 17.07% 即可达到全模型性能的 95%。
- 在评估阶段使用真实代价信息时,c95 = 14.68%,表明学习到的代价模型非常有效,但仍存在改进空间。
- 仅使用熵基采样会导致更高的标注工作量(c95 = 33.76% 对应 10.01% 的标签),表明成本感知选择对效率至关重要。
- 更小的区域尺寸(128×128)可实现对信息丰富区域的更密集采样,相比更大的区域,能带来更优的性能表现,因其能更精确地定位高不确定性区域。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。