[论文解读] Few-Shot Segmentation via Cycle-Consistent Transformer
CyCTR 引入了一种循环一致性 Transformer,将像素级支持特征融合到查询特征,以实现少样本分割,在 Pascal-5i 和 COCO-20i 上达到最新的状态结果。
Few-shot segmentation aims to train a segmentation model that can fast adapt to novel classes with few exemplars. The conventional training paradigm is to learn to make predictions on query images conditioned on the features from support images. Previous methods only utilized the semantic-level prototypes of support images as conditional information. These methods cannot utilize all pixel-wise support information for the query predictions, which is however critical for the segmentation task. In this paper, we focus on utilizing pixel-wise relationships between support and query images to facilitate the few-shot segmentation task. We design a novel Cycle-Consistent TRansformer (CyCTR) module to aggregate pixel-wise support features into query ones. CyCTR performs cross-attention between features from different images, i.e. support and query images. We observe that there may exist unexpected irrelevant pixel-level support features. Directly performing cross-attention may aggregate these features from support to query and bias the query features. Thus, we propose using a novel cycle-consistent attention mechanism to filter out possible harmful support features and encourage query features to attend to the most informative pixels from support images. Experiments on all few-shot segmentation benchmarks demonstrate that our proposed CyCTR leads to remarkable improvement compared to previous state-of-the-art methods. Specifically, on Pascal-$5^i$ and COCO-$20^i$ datasets, we achieve 67.5% and 45.6% mIoU for 5-shot segmentation, outperforming previous state-of-the-art methods by 5.6% and 7.1% respectively.
研究动机与目标
- 激励在少样本分割中对每个查询像素利用像素级的支持信息。
- 发展一种循环一致性注意力机制,在跨图像注意力过程中过滤掉有害的支持特征。
- 提出 CyCTR,通过自对齐与跨对齐 Transformer 块将像素级支持特征聚合到查询特征中。
- 在标准少样本分割基准(Pascal-5i,COCO-20i)上展示出最先进的性能。
提出的方法
- 引入 CyCTR,每个编码器包含两个 Transformer 块:一个自对齐块(查询上下文)和一个跨对齐块(查询–支持 注意力)。
- 实现循环一致性注意力,在跨注意力期间抑制循环不一致的支持像素(方程式 5)。
- 计算亲和度 A = QK^T / sqrt(d) 并应用一个循环一致性偏置 B,在聚合时将非循环一致的支持令牌置零(方程 3–5)。
- 使用采样策略处理 K-shot 设置,通过选择前景/背景令牌(N_fg 和 N_s)实现可扩展的跨注意力。
- 采用共享主干网络(ImageNet 预训练的 ResNet),在其上叠加 CyCTR,包括先验图和全局支持特征,随后是一个分类头。
- 使用 Dice 损失和来自基于支持的分割图的辅助损失进行训练;采用 AdamW 优化。
实验结果
研究问题
- RQ1支持与查询图像之间的像素级跨注意力能否在少样本分割方面超越基于原型的方法?
- RQ2引入循环一致性注意力是否能有效过滤有害的支持像素并保留有信息的背景像素?
- RQ3在标准基准(Pascal-5i,COCO-20i)的 1-shot 和 5-shot 设置下,CyCTR 的表现如何?
- RQ4编码器深度、隐藏维度和采样策略对性能与效率的影响是什么?
主要发现
- CyCTR 在 Pascal-5i 和 COCO-20i 的 1-shot 和 5-shot 设置中实现了最先进的结果。
- 在使用 ResNet-50 的 Pascal-5i 上,1-shot mIoU = 64.0,5-shot mIoU = 69.3(均值)。
- 在使用 ResNet-101 的 Pascal-5i 上,1-shot mIoU = 63.7,5-shot mIoU = 67.4(均值)。
- 在使用 ResNet-50 的 COCO-20i 上,1-shot mIoU = 40.3,5-shot mIoU = 41.1(均值)。
- 循环一致性注意力相较于原生跨注意力和基线有显著提升(消融结果显示关键变体在 mIoU 上提高约 0.6–0.9%)。
- 与先前方法相比,CyCTR 在所评估的分组中在 mIoU 和 FB-IoU 上获得更大增益(例如,Pascal-5i 1-shot 的 FB-IoU 为 73.0%,5-shot 为 75.4%,都使用 ResNet-101)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。