[论文解读] SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation
SegCLIP 引入了基于 CLIP 的开集词汇语义分割模型,使用带可学习中心的插件式语义组模块将补丁聚合成不规则的语义区域,训练时除了对比损失,还使用重建和超像素 KL 损失。它在 VOC、Context 和 COCO 上实现了有竞争力的 mIoU,且无需蒙版提议。
Recently, the contrastive language-image pre-training, e.g., CLIP, has demonstrated promising results on various downstream tasks. The pre-trained model can capture enriched visual concepts for images by learning from a large scale of text-image data. However, transferring the learned visual knowledge to open-vocabulary semantic segmentation is still under-explored. In this paper, we propose a CLIP-based model named SegCLIP for the topic of open-vocabulary segmentation in an annotation-free manner. The SegCLIP achieves segmentation based on ViT and the main idea is to gather patches with learnable centers to semantic regions through training on text-image pairs. The gathering operation can dynamically capture the semantic groups, which can be used to generate the final segmentation results. We further propose a reconstruction loss on masked patches and a superpixel-based KL loss with pseudo-labels to enhance the visual representation. Experimental results show that our model achieves comparable or superior segmentation accuracy on the PASCAL VOC 2012 (+0.3% mIoU), PASCAL Context (+2.3% mIoU), and COCO (+2.2% mIoU) compared with baselines. We release the code at https://github.com/ArrowLuo/SegCLIP.
研究动机与目标
- 在没有像素级标签或固定词汇的情况下推动开放词汇语义分割。
- 通过插入一个语义组模块,利用 CLIP 将补丁聚合成语义区域。
- 通过重建与超像素基础的 KL 损失来提升视觉表征。
- 展示从 CLIP 预训练到标准数据集上的分割迁移。
提出的方法
- 使用基于 ViT 的 CLIP 主干并插入一个语义组模块,产生 L 个可学习中心,通过跨注意力和从 Gumbel-Softmax 得到的映射矩阵 M 将补丁聚合到语义区域。
- 通过中心与图像补丁之间的跨注意力生成上下文中心;计算 M 将补丁分配到中心;为下游 Transformer 层导出区域表征。
- 用多种损失进行训练:对比损失(CLIP 风格)、对带遮蔽补丁的重建损失(通过一种不规则区域的 MAE-like 过程)以及基于超像素的 KL 损失,以鼓励补丁-区域映射的一致性。
- 推断阶段使用填充候选标签的文本提示,并计算区域表征与标签嵌入之间的相似度,通过插值生成像素级分割。
实验结果
研究问题
- RQ1SegCLIP 是否能够通过复用 CLIP 权重而无需分割特定监督实现开放词汇语义分割?
- RQ2可学习的补丁居中(语义组)方法是否能产生适合开放词汇标注的连贯、不规则形状的分段?
- RQ3重建和基于超像素的 KL 损失是否在对比学习之上提升分割质量?
主要发现
| 架构 | 初始化 | 训练数据 | Sup. | 零-shot | VOC | Context | COCO |
|---|---|---|---|---|---|---|---|
| SegCLIP | 6 | - | - | - | 35.28 | 19.28 | 16.73 |
| SegCLIP | 8 | CC+COCO | Text | ✓ | 43.75 | 22.71 | 21.40 |
| SegCLIP | 10 | CC+COCO | Text | ✓ | 47.95 | 23.43 | 24.86 |
| SegCLIP | 11 | CC+COCO | Text | ✓ | 22.07 | 10.76 | 12.08 |
- SegCLIP 在 VOC、Context 和 COCO 上实现了 mIoU 的提升,在来自 CC+COCO 的初始化并结合所提出的损失进行训练时,达到 52.60/24.71/26.45(见表格).
- 当与 KL 损失结合时,重建损失显著提高 mIoU(例如在 VOC 上从 +1.19 增至 +4.11,具体取决于条件)。
- 基于超像素的 KL 损失在各数据集上持续提升 mIoU,尤其是在同时使用重建损失时。
- 跨注意力和插入层数影响性能;大约 10 层插入、8 个中心、2 层跨注意力可以获得较强结果。
- 以预训练 CLIP 初始化显著提升表现,相较于从零开始训练(例如 VOC、Context、COCO 的提升)。
- SegCLIP 在评估时使用候选标签即可实现零样本/开放词汇分割,无需额外的分割专门训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。