QUICK REVIEW

[论文解读] Built-in Foreground/Background Prior for Weakly-Supervised Semantic Segmentation

Fatemehsadat Saleh, Mohammad Sadegh Ali Akbarian|arXiv (Cornell University)|Sep 2, 2016

Advanced Neural Network Applications参考文献 37被引用 29

一句话总结

本文提出一种弱监督语义分割方法，直接从预训练CNN的激活值中提取前景/背景掩码——具体而言，是VGG-16网络中高层卷积特征——而无需依赖外部的物体存在性模型。通过应用全连接条件随机场（CRF）对这些激活值进行平滑处理，该方法生成了精确的定位先验，在PASCAL VOC 2012和MIRFLICKR-1M数据集上显著优于当前最先进的仅使用标签的方法，且通过用户选择掩码的极简交互操作进一步提升了性能。

ABSTRACT

Pixel-level annotations are expensive and time consuming to obtain. Hence, weak supervision using only image tags could have a significant impact in semantic segmentation. Recently, CNN-based methods have proposed to fine-tune pre-trained networks using image tags. Without additional information, this leads to poor localization accuracy. This problem, however, was alleviated by making use of objectness priors to generate foreground/background masks. Unfortunately these priors either require training pixel-level annotations/bounding boxes, or still yield inaccurate object boundaries. Here, we propose a novel method to extract markedly more accurate masks from the pre-trained network itself, forgoing external objectness modules. This is accomplished using the activations of the higher-level convolutional layers, smoothed by a dense CRF. We demonstrate that our method, based on these masks and a weakly-supervised loss, outperforms the state-of-the-art tag-based weakly-supervised semantic segmentation techniques. Furthermore, we introduce a new form of inexpensive weak supervision yielding an additional accuracy boost.

研究动机与目标

解决仅使用图像级别标签时弱监督语义分割的挑战，因为标准方法在定位精度方面表现较差。
消除对外部物体存在性模型的依赖，这些模型需要额外标注或引入误差源。
利用预训练CNN中的内在特征生成用于弱监督训练的精确前景/背景掩码。
引入一种轻量级、用户友好的额外监督形式——从候选掩码中选择最佳掩码——以极低的标注成本显著提升性能。

提出的方法

从预训练网络中高层卷积层（如VGG-16中的conv5_3）的激活值中提取前景/背景掩码。
使用全连接条件随机场（CRF）对原始激活图进行平滑处理，以生成空间上一致的优化掩码。
将所得掩码作为弱监督训练目标中的内置前景/背景先验用于语义分割。
在端到端框架中集成掩码生成与分割训练过程，无需额外的像素级标注。
提出CheckMask流程，用户从多个自动生成的候选掩码中选择最佳掩码，实现极少量的监督。
使用一种弱监督损失函数训练分割网络，使预测结果与生成的掩码及图像标签对齐。

实验结果

研究问题

RQ1能否在不依赖外部物体存在性模型的前提下，从预训练CNN特征中可靠地提取前景/背景掩码？
RQ2使用网络内在激活作为定位先验，是否能提升仅使用图像标签的弱监督语义分割精度？
RQ3通过一个极简的用户交互步骤——从少数候选掩码中选择最佳掩码——是否能显著提升性能，同时保持实际可行性？
RQ4与使用更强监督信号（如边界框或物体尺寸信息）的最先进方法相比，该方法表现如何？

主要发现

在仅使用图像标签和CheckMask流程训练的MIRFLICKR-1M子集上，该方法在PASCAL VOC 2012验证集上实现了46.3%的平均交并比（mIOU），显著优于CCNN基线方法（使用标签和CRF时为32.2% mIOU）。
在同一Flickr子集上，该方法在仅使用标签时达到43.9% mIOU，加入CheckMask后提升至46.3%，表明极简用户输入带来了2.4%的绝对性能提升。
该方法优于当前最先进的仅使用标签的方法，甚至超越了部分使用更强监督信号（如物体尺寸信息）的方法（CCNN+尺寸信息：32.2% mIOU vs. 本方法CheckMask设置下的46.3% mIOU）。
该模型在罕见类别上表现良好——例如，'table'类达到31.2% mIOU，'sofa'类达到16.8% mIOU，而CCNN则完全失效，表明对类别不平衡具有鲁棒性。
CheckMask流程平均每张图像仅需约2.5秒，具有高度的实际部署可行性。
定性结果表明，定位精度和边界一致性均有改善，尤其在复杂场景和细粒度物体区域表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。