Skip to main content
QUICK REVIEW

[论文解读] Built-in Foreground/Background Prior for Weakly-Supervised Semantic Segmentation

Fatemehsadat Saleh, Mohammad Sadegh Ali Akbarian|arXiv (Cornell University)|Sep 2, 2016
Advanced Neural Network Applications参考文献 37被引用 29
一句话总结

本文提出一种弱监督语义分割方法,直接从预训练CNN的激活值中提取前景/背景掩码——具体而言,是VGG-16网络中高层卷积特征——而无需依赖外部的物体存在性模型。通过应用全连接条件随机场(CRF)对这些激活值进行平滑处理,该方法生成了精确的定位先验,在PASCAL VOC 2012和MIRFLICKR-1M数据集上显著优于当前最先进的仅使用标签的方法,且通过用户选择掩码的极简交互操作进一步提升了性能。

ABSTRACT

Pixel-level annotations are expensive and time consuming to obtain. Hence, weak supervision using only image tags could have a significant impact in semantic segmentation. Recently, CNN-based methods have proposed to fine-tune pre-trained networks using image tags. Without additional information, this leads to poor localization accuracy. This problem, however, was alleviated by making use of objectness priors to generate foreground/background masks. Unfortunately these priors either require training pixel-level annotations/bounding boxes, or still yield inaccurate object boundaries. Here, we propose a novel method to extract markedly more accurate masks from the pre-trained network itself, forgoing external objectness modules. This is accomplished using the activations of the higher-level convolutional layers, smoothed by a dense CRF. We demonstrate that our method, based on these masks and a weakly-supervised loss, outperforms the state-of-the-art tag-based weakly-supervised semantic segmentation techniques. Furthermore, we introduce a new form of inexpensive weak supervision yielding an additional accuracy boost.

研究动机与目标

  • 解决仅使用图像级别标签时弱监督语义分割的挑战,因为标准方法在定位精度方面表现较差。
  • 消除对外部物体存在性模型的依赖,这些模型需要额外标注或引入误差源。
  • 利用预训练CNN中的内在特征生成用于弱监督训练的精确前景/背景掩码。
  • 引入一种轻量级、用户友好的额外监督形式——从候选掩码中选择最佳掩码——以极低的标注成本显著提升性能。

提出的方法

  • 从预训练网络中高层卷积层(如VGG-16中的conv5_3)的激活值中提取前景/背景掩码。
  • 使用全连接条件随机场(CRF)对原始激活图进行平滑处理,以生成空间上一致的优化掩码。
  • 将所得掩码作为弱监督训练目标中的内置前景/背景先验用于语义分割。
  • 在端到端框架中集成掩码生成与分割训练过程,无需额外的像素级标注。
  • 提出CheckMask流程,用户从多个自动生成的候选掩码中选择最佳掩码,实现极少量的监督。
  • 使用一种弱监督损失函数训练分割网络,使预测结果与生成的掩码及图像标签对齐。

实验结果

研究问题

  • RQ1能否在不依赖外部物体存在性模型的前提下,从预训练CNN特征中可靠地提取前景/背景掩码?
  • RQ2使用网络内在激活作为定位先验,是否能提升仅使用图像标签的弱监督语义分割精度?
  • RQ3通过一个极简的用户交互步骤——从少数候选掩码中选择最佳掩码——是否能显著提升性能,同时保持实际可行性?
  • RQ4与使用更强监督信号(如边界框或物体尺寸信息)的最先进方法相比,该方法表现如何?

主要发现

  • 在仅使用图像标签和CheckMask流程训练的MIRFLICKR-1M子集上,该方法在PASCAL VOC 2012验证集上实现了46.3%的平均交并比(mIOU),显著优于CCNN基线方法(使用标签和CRF时为32.2% mIOU)。
  • 在同一Flickr子集上,该方法在仅使用标签时达到43.9% mIOU,加入CheckMask后提升至46.3%,表明极简用户输入带来了2.4%的绝对性能提升。
  • 该方法优于当前最先进的仅使用标签的方法,甚至超越了部分使用更强监督信号(如物体尺寸信息)的方法(CCNN+尺寸信息:32.2% mIOU vs. 本方法CheckMask设置下的46.3% mIOU)。
  • 该模型在罕见类别上表现良好——例如,'table'类达到31.2% mIOU,'sofa'类达到16.8% mIOU,而CCNN则完全失效,表明对类别不平衡具有鲁棒性。
  • CheckMask流程平均每张图像仅需约2.5秒,具有高度的实际部署可行性。
  • 定性结果表明,定位精度和边界一致性均有改善,尤其在复杂场景和细粒度物体区域表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。