QUICK REVIEW

[论文解读] Segment Anything is A Good Pseudo-label Generator for Weakly Supervised Semantic Segmentation

Peng-Tao Jiang, Yuqi Yang|arXiv (Cornell University)|May 2, 2023

Advanced Neural Network Applications被引用 18

一句话总结

本论文探究使用由弱标签得到的 Segment Anything Model (SAM) 提示来生成高质量伪标签，用于弱监督语义分割，在 PASCAL VOC 2012 上取得了较强的结果。

ABSTRACT

Weakly supervised semantic segmentation with weak labels is a long-lived ill-posed problem. Mainstream methods mainly focus on improving the quality of pseudo labels. In this report, we attempt to explore the potential of 'prompt to masks' from the powerful class-agnostic large segmentation model, segment-anything. Specifically, different weak labels are used as prompts to the segment-anything model, generating precise class masks. The class masks are utilized to generate pseudo labels to train the segmentation networks. We have conducted extensive experiments on PASCAL VOC 2012 dataset. Experiments demonstrate that segment-anything can serve as a good pseudo-label generator. The code will be made publicly available.

研究动机与目标

激发/推动在像素级注释成本高昂的情况下进行弱监督语义分割。
研究 segment-anything model (SAM) 作为伪标签生成器的潜力，使用各种弱注释作为提示。
定量评估不同提示（图像级标签、点、涂鸦、边界框）如何影响伪标签质量和最终分割性能。
确定哪些提示类型和配置在标注工作量与分割精度之间提供最佳权衡。

提出的方法

使用 SAM 将弱注释转换为精确的对象掩模，作为训练分割网络的伪标签。
探索多种提示类型：图像级标签、点、涂鸦和边界框，以及它们的变体（例如从 CAM 采样、迭代提示、负提示）。
评估两种基于 CAM 的点提示策略：采样所有自信的 CAM 像素与仅采样自信像素；分析它们对伪标签质量的影响。
结合 SAM 生成的掩模与 BLIP-2 分类来对伪标签创建所需的掩模进行细化或分类。
评估迭代提示细化和负提示对不同注释类型的伪标签质量的影响。
使用生成的伪标签训练标准分割骨干网（DeepLab-v2，ResNet-101 初始化），并在 PASCAL VOC 2012 上进行评估。

实验结果

研究问题

RQ1能否通过各种弱标签提示的 SAM 生成高质量伪标签，适用于训练语义分割模型？
RQ2哪些提示类型（图像级标签、点、涂鸦、边界框）能带来最佳伪标签质量和下游分割性能？
RQ3迭代提示或负提示是否能提升 SAM 生成的掩模在弱监督中的质量？
RQ4在 PASCAL VOC 2012 上，基于 SAM 的伪标签与传统的弱监督方法相比如何？

主要发现

Annotations	Methods	Publication	Val (%)	Test (%)
图像级标签	AdvCAM	CVPR’21	68.1	68.0
图像级标签	EPS	CVPR’22	70.9	70.8
图像级标签 + SAM	-	-	71.1	72.2
点	WhatsPoint	ECCV’16	46.1	-
点 + SAM	-	-	69.0	68.7
涂鸦	ScribbleSup	CVPR’16	63.1	-
涂鸦 + SAM	-	-	75.9	76.6
边界框	WSSL	ICCV’15	60.6	62.2
边界框	BoxSup	ICCV’15	62.0	64.6
SDI	SDI	CVPR’17	69.4	-
Song et al.	Song et al.	CVPR’19	70.2	-
BBAM	BBAM	CVPR’21	73.7	73.7
边界框 + SAM	-	-	76.3	75.8

采用 SAM 的涂鸦提示实现最高的伪标签质量，在用于训练 DeepLab-v2 时，在 VOC 2012 训练集上达到 89.7% mIoU，测试集为 76.6% mIoU。
使用 SAM 的边界框提示提供强伪标签，在训练集达到 91.5% mIoU，测试集性能具有竞争力。
基于 SAM 的伪标签对图像级标签和 CAM 洞察的提示显示出相对于传统 CAM 方法的显著提升，例如图像级标签 + SAM 达到 72.2% 的测试 mIoU，高于若干先前方法。
迭代提示细化并未持续提升图像级提示的伪标签质量，但可提升涂鸦提示和负点配置。
点提示可获得有竞争力的结果（验证 69.0%，测试 68.7%），但通常不及涂鸦和边界框提示的 SAM 运行。
总的来说，SAM 被证明是在 PASCAL VOC 2012 上用于弱监督语义分割的强力伪标签生成器。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。