Skip to main content
QUICK REVIEW

[论文解读] Feature-Proxy Transformer for Few-Shot Segmentation

Jianwei Zhang, Yifan Sun|arXiv (Cornell University)|Oct 13, 2022
Domain Adaptation and Few-Shot Learning被引用 27
一句话总结

FPTrans 通过使用即时代理和基于提示的查询-支持特征交互,复兴了仅含特征提取器和线性分类头的少样本分割框架,在无需复杂解码器的情况下实现近似最先进的结果。

ABSTRACT

Few-shot segmentation (FSS) aims at performing semantic segmentation on novel classes given a few annotated support samples. With a rethink of recent advances, we find that the current FSS framework has deviated far from the supervised segmentation framework: Given the deep features, FSS methods typically use an intricate decoder to perform sophisticated pixel-wise matching, while the supervised segmentation methods use a simple linear classification head. Due to the intricacy of the decoder and its matching pipeline, it is not easy to follow such an FSS framework. This paper revives the straightforward framework of "feature extractor $+$ linear classification head" and proposes a novel Feature-Proxy Transformer (FPTrans) method, in which the "proxy" is the vector representing a semantic class in the linear classification head. FPTrans has two keypoints for learning discriminative features and representative proxies: 1) To better utilize the limited support samples, the feature extractor makes the query interact with the support features from the bottom to top layers using a novel prompting strategy. 2) FPTrans uses multiple local background proxies (instead of a single one) because the background is not homogeneous and may contain some novel foreground regions. These two keypoints are easily integrated into the vision transformer backbone with the prompting mechanism in the transformer. Given the learned features and proxies, FPTrans directly compares their cosine similarity for segmentation. Although the framework is straightforward, we show that FPTrans achieves competitive FSS accuracy on par with state-of-the-art decoder-based methods.

研究动机与目标

  • 推动一个与监督分割对齐的更简化的 FSS 框架(特征提取器 + 线性头)。
  • 开发基于提示的机制,在有限的支持样本下实现有效的查询-支持交互。
  • 引入多本地背景代理以提高对新类的泛化能力。

提出的方法

  • 使用视觉变换器骨干网络和新的提示策略来注入前景提示和多个本地背景提示。
  • 从支持图像和掩码中即时生成代理(特征式代理和提示式代理)用于分类头。
  • 在查询与支持之间同步提示令牌,以实现高效的跨注意力和交互(提示同步)。
  • 通过变换器提取特征和代理,然后进行基于像素级余弦相似度的分类,并使用交叉熵和成对损失。
  • 以特征式代理和提示式代理的两种分类损失之和以及成对前景特征拉近损失进行训练。

实验结果

研究问题

  • RQ1在精心设计的代理和提示下,简单的特征提取器 + 线性头框架是否能够匹配基于解码器的 FSS 方法?
  • RQ2多本地背景代理是否能提升在 FSS 中对新类的泛化?
  • RQ3通过提示实现的查询-支持交互是否在保持精度的同时降低了交互复杂度?

主要发现

  • FPTrans 在多数据集和骨干网络上实现与最先进解码器方法相当的 FSS 准确度。
  • 使用多本地背景代理和查询-支持提示在纯基线基础上带来稳定的提升,消融实验证实了它们的贡献。
  • 在 PASCAL-5i 和 COCO-20i 上,配备 ViT/DeiT 骨干的 FPTrans 超越了若干强基线,在域迁移情景下显示出显著改进。
  • 提示同步将跨注意力流程的交互复杂度从 O(N^2) 降至 O(N),同时实现高效的特征与代理学习。
  • 结合特征式代理分类和提示式代理分类以及成对的前景特征损失进行训练,能够提升 FSS 性能,尤其是在支持样本较少时。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。