QUICK REVIEW

[论文解读] Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features

Xiang Wang, Shaodi You|arXiv (Cornell University)|Jun 12, 2018

Advanced Neural Network Applications参考文献 32被引用 37

一句话总结

该论文提出了一种基于图像级标签的弱监督语义分割迭代式自底向上与自顶向下框架——MCOF。该方法通过从粗略初始激活图中挖掘共现物体特征，并利用显著性引导的贝叶斯融合进行优化，逐步改进目标定位，随后使用改进的分割掩码重新训练分割网络。该方法在 PASCAL VOC 2012 上实现了最先进性能，经过五轮迭代后在验证集上达到 56.2% 的 mIoU。

ABSTRACT

Weakly-supervised semantic segmentation under image tags supervision is a challenging task as it directly associates high-level semantic to low-level appearance. To bridge this gap, in this paper, we propose an iterative bottom-up and top-down framework which alternatively expands object regions and optimizes segmentation network. We start from initial localization produced by classification networks. While classification networks are only responsive to small and coarse discriminative object regions, we argue that, these regions contain significant common features about objects. So in the bottom-up step, we mine common object features from the initial localization and expand object regions with the mined features. To supplement non-discriminative regions, saliency maps are then considered under Bayesian framework to refine the object regions. Then in the top-down step, the refined object regions are used as supervision to train the segmentation network and to predict object masks. These object masks provide more accurate localization and contain more regions of object. Further, we take these object masks as initial localization and mine common object features from them. These processes are conducted iteratively to progressively produce fine object masks and optimize segmentation networks. Experimental results on Pascal VOC 2012 dataset demonstrate that the proposed method outperforms previous state-of-the-art methods by a large margin.

研究动机与目标

解决仅使用图像级标签时弱监督语义分割的挑战，其中分类网络仅生成粗略且不准确的目标定位。
通过迭代改进目标区域定位，弥合高层语义标签与低层视觉外观之间的差距。
开发一种鲁棒框架，通过逐步扩展通过特征挖掘获得的可靠目标区域，容忍初始定位不准确的种子区域。
通过整合显著性图恢复初始定位遗漏的非判别性物体部分，从而提升分割性能。
仅使用弱监督在 PASCAL VOC 2012 基准上实现最先进性能。

提出的方法

该框架从预训练图像分类器生成的分类激活图（CAM）出发，生成初始粗略目标种子。
在自底向上阶段，使用这些种子训练一个区域分类网络（RegionNet），以学习共现物体特征并扩展目标区域。
显著性引导的优化步骤在贝叶斯框架下将扩展后的区域与显著性图结合，以恢复缺失的物体部分。
在自顶向下阶段，使用优化后的目标区域作为弱监督信号，训练一个分割网络（PixelNet），以预测密集的像素级掩码。
随后将预测的掩码作为下一轮迭代的新目标种子，实现定位与网络性能的迭代优化。
该过程在自底向上特征挖掘与自顶向下网络训练之间交替进行，逐步提升定位准确率与分割质量。

实验结果

研究问题

RQ1能否通过从粗略初始定位中迭代挖掘共现物体特征来提升弱监督语义分割性能？
RQ2当初始定位仅聚焦于关键部分时，如何恢复非判别性物体区域？
RQ3将显著性图整合到优化过程中是否能显著提升掩码的完整性与分割准确率？
RQ4与仅使用分割掩码作为监督信号的直接迭代训练相比，该迭代式自底向上与自顶向下框架是否表现更优？
RQ5在弱监督设置中，该方法在多大程度上能容忍初始目标种子的不准确性？

主要发现

经过五轮迭代后，该方法在 PASCAL VOC 2012 验证集上达到 56.2% 的 mIoU，显著优于此前最先进方法。
初始目标种子在训练集上的 mIoU 仅为 14.27%，但经过第一轮完整迭代后性能提升至 48.4%，表明性能快速提升。
在第一轮迭代中，引入显著性引导优化使 mIoU 从 41.8% 提升至 44.4%，证明其在恢复缺失物体区域方面的有效性。
迭代式 MCOF 框架性能提升迅速，五轮迭代后在测试集上达到 63.2% 的 mIoU，表现出强收敛性与鲁棒性。
与仅使用分割掩码进行直接迭代训练相比，MCOF 框架展现出更快且更高的准确率增益，证实了结构化特征挖掘与优化的优越性。
该方法对初始定位不准确具有鲁棒性，即使初始种子非常粗略且仅限于判别性部分（如头部或手部）也能取得成功结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。