[论文解读] Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo Labeling and Multi-scale Feature Grouping
提出了 WS-SAM,一种弱监督隐蔽对象分割框架,使用 SAM 生成的伪标签并结合多重增强、基于熵的加权以及图像级选择,同时引入多尺度特征分组模块以提升分割的一致性和对多目标的处理。
Weakly-Supervised Concealed Object Segmentation (WSCOS) aims to segment objects well blended with surrounding environments using sparsely-annotated data for model training. It remains a challenging task since (1) it is hard to distinguish concealed objects from the background due to the intrinsic similarity and (2) the sparsely-annotated training data only provide weak supervision for model learning. In this paper, we propose a new WSCOS method to address these two challenges. To tackle the intrinsic similarity challenge, we design a multi-scale feature grouping module that first groups features at different granularities and then aggregates these grouping results. By grouping similar features together, it encourages segmentation coherence, helping obtain complete segmentation results for both single and multiple-object images. For the weak supervision challenge, we utilize the recently-proposed vision foundation model, Segment Anything Model (SAM), and use the provided sparse annotations as prompts to generate segmentation masks, which are used to train the model. To alleviate the impact of low-quality segmentation masks, we further propose a series of strategies, including multi-augmentation result ensemble, entropy-based pixel-level weighting, and entropy-based image-level selection. These strategies help provide more reliable supervision to train the segmentation model. We verify the effectiveness of our method on various WSCOS tasks, and experiments demonstrate that our method achieves state-of-the-art performance on these tasks.
研究动机与目标
- 通过利用稀疏标签来训练准确的分割器,降低隐蔽对象分割(COS)的标注成本。
- 通过多尺度特征分组(MFG)模块缓解前景与背景的固有相似性。
- 通过使用带有增强集成、像素级加权和图像级选择的基于 SAM 的掩码,提升弱监督的质量。
- 在包括 COD、PIS、TOD 的多样化 WSCOS 任务上展示最先进的性能。
- 证明 MFG 也能提升全监督 COS 和多对象场景的性能。
提出的方法
- 以稀疏注释作为提示,使用 SAM 生成用于训练 COS 分割器的密集伪掩码。
- 提出多尺度特征分组(MFG),在多粒度上分组特征并用受 RK2 启发的方案进行聚合,以提升一致性。
- 应用 ResNet-50 编码器和解码器,使用联合损失训练,结合稀疏注释上的部分交叉熵和来自基于 SAM 的伪标签的监督(L_ce 与 L_IoU)。
- 实现伪标签 refinements:多增强结果融合(MAF)对 SAM 输出进行集成、基于熵的像素级加权以强调置信像素,以及基于熵的图像级选择以过滤低质量图像。
- 提供铅笔画/稀疏点监督的基线,并与基于 SAM 的基线(SAM、SAM-S、SAM-P)及之前的 WSCOS 方法进行比较。
实验结果
研究问题
- RQ1在稀疏注释的引导下,SAM 生成的掩码是否能为弱监督隐蔽对象分割提供可靠的伪标签?
- RQ2在弱监督条件下,多尺度特征分组模块是否能提升分割的一致性和对多对象的处理?
- RQ3增强集成、熵加权和图像级选择是否提升伪标签的质量和最终分割性能?
- RQ4WS-SAM 在 COD、PIS、TOD 任务上是否有效,且 MFG 能否将收益扩展到全监督 COS 与多对象图像?
主要发现
| 方法 | M ↓ | Fβ↑ | Eφ↑ | Sα↑ |
|---|---|---|---|---|
| SAM | 0.207 | 0.595 | 0.647 | 0.635 |
| SAM-S | 0.076 | 0.729 | 0.820 | 0.650 |
| WSSA | 0.067 | 0.692 | 0.860 | 0.782 |
| SCWS | 0.053 | 0.758 | 0.881 | 0.792 |
| TEL | 0.073 | 0.708 | 0.827 | 0.785 |
| SCOD | 0.046 | 0.791 | 0.897 | 0.818 |
| SCOD+ | 0.046 | 0.797 | 0.900 | 0.820 |
| Ours | 0.046 | 0.777 | 0.897 | 0.824 |
- WS-SAM 加上 MFG 在 COD、PIS、TOD 数据集的弱监督隐蔽对象分割任务上达到了最先进的结果。
- 经过多增强融合、像素级熵加权和图像级选择进行 refinement 的基于 SAM 的伪标签,优于使用原始 SAM 输出或无 SAM 指导的基线。
- 多尺度特征分组(MFG)模块提升分割指标,尤其是在多对象图像上,并且在全监督 COS 设置中也有收益。
- 在 COD10K 的涂鸦监督下,所提出的 WS-SAM 框架加上 MFG 取得了有竞争力的结果,并且该方法超越了若干基线和此前的 WSCOS 方法。
- 消融研究表明每个组件(MAF、PLW、ILS)和 MFG 的设计对各项指标(M、Fβ、Eφ、Sα)产生了可衡量的改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。