[论文解读] Built-in Foreground/Background Prior for Weakly-Supervised Semantic Segmentation
本文提出一种弱监督语义分割方法,直接从预训练CNN的激活值中提取前景/背景掩码——具体而言,是VGG-16网络中高层卷积特征——而无需依赖外部的物体存在性模型。通过应用全连接条件随机场(CRF)对这些激活值进行平滑处理,该方法生成了精确的定位先验,在PASCAL VOC 2012和MIRFLICKR-1M数据集上显著优于当前最先进的仅使用标签的方法,且通过用户选择掩码的极简交互操作进一步提升了性能。
Pixel-level annotations are expensive and time consuming to obtain. Hence, weak supervision using only image tags could have a significant impact in semantic segmentation. Recently, CNN-based methods have proposed to fine-tune pre-trained networks using image tags. Without additional information, this leads to poor localization accuracy. This problem, however, was alleviated by making use of objectness priors to generate foreground/background masks. Unfortunately these priors either require training pixel-level annotations/bounding boxes, or still yield inaccurate object boundaries. Here, we propose a novel method to extract markedly more accurate masks from the pre-trained network itself, forgoing external objectness modules. This is accomplished using the activations of the higher-level convolutional layers, smoothed by a dense CRF. We demonstrate that our method, based on these masks and a weakly-supervised loss, outperforms the state-of-the-art tag-based weakly-supervised semantic segmentation techniques. Furthermore, we introduce a new form of inexpensive weak supervision yielding an additional accuracy boost.
研究动机与目标
- 解决仅使用图像级别标签时弱监督语义分割的挑战,因为标准方法在定位精度方面表现较差。
- 消除对外部物体存在性模型的依赖,这些模型需要额外标注或引入误差源。
- 利用预训练CNN中的内在特征生成用于弱监督训练的精确前景/背景掩码。
- 引入一种轻量级、用户友好的额外监督形式——从候选掩码中选择最佳掩码——以极低的标注成本显著提升性能。
提出的方法
- 从预训练网络中高层卷积层(如VGG-16中的conv5_3)的激活值中提取前景/背景掩码。
- 使用全连接条件随机场(CRF)对原始激活图进行平滑处理,以生成空间上一致的优化掩码。
- 将所得掩码作为弱监督训练目标中的内置前景/背景先验用于语义分割。
- 在端到端框架中集成掩码生成与分割训练过程,无需额外的像素级标注。
- 提出CheckMask流程,用户从多个自动生成的候选掩码中选择最佳掩码,实现极少量的监督。
- 使用一种弱监督损失函数训练分割网络,使预测结果与生成的掩码及图像标签对齐。
实验结果
研究问题
- RQ1能否在不依赖外部物体存在性模型的前提下,从预训练CNN特征中可靠地提取前景/背景掩码?
- RQ2使用网络内在激活作为定位先验,是否能提升仅使用图像标签的弱监督语义分割精度?
- RQ3通过一个极简的用户交互步骤——从少数候选掩码中选择最佳掩码——是否能显著提升性能,同时保持实际可行性?
- RQ4与使用更强监督信号(如边界框或物体尺寸信息)的最先进方法相比,该方法表现如何?
主要发现
- 在仅使用图像标签和CheckMask流程训练的MIRFLICKR-1M子集上,该方法在PASCAL VOC 2012验证集上实现了46.3%的平均交并比(mIOU),显著优于CCNN基线方法(使用标签和CRF时为32.2% mIOU)。
- 在同一Flickr子集上,该方法在仅使用标签时达到43.9% mIOU,加入CheckMask后提升至46.3%,表明极简用户输入带来了2.4%的绝对性能提升。
- 该方法优于当前最先进的仅使用标签的方法,甚至超越了部分使用更强监督信号(如物体尺寸信息)的方法(CCNN+尺寸信息:32.2% mIOU vs. 本方法CheckMask设置下的46.3% mIOU)。
- 该模型在罕见类别上表现良好——例如,'table'类达到31.2% mIOU,'sofa'类达到16.8% mIOU,而CCNN则完全失效,表明对类别不平衡具有鲁棒性。
- CheckMask流程平均每张图像仅需约2.5秒,具有高度的实际部署可行性。
- 定性结果表明,定位精度和边界一致性均有改善,尤其在复杂场景和细粒度物体区域表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。