Skip to main content
QUICK REVIEW

[論文レビュー] Feature-Proxy Transformer for Few-Shot Segmentation

Jianwei Zhang, Yifan Sun|arXiv (Cornell University)|Oct 13, 2022
Domain Adaptation and Few-Shot Learning被引用数 27
ひとこと要約

FPTransは、オンザフライの代理とクエリとサポート特徴の prompting ベースの相互作用を用いて、少数ショットセグメンテーションのためのプレーンな特徴抽出器+線形分類ヘッドのフレームワークを再構築し、複雑なデコーダなしで最先端に近い結果を達成します。

ABSTRACT

Few-shot segmentation (FSS) aims at performing semantic segmentation on novel classes given a few annotated support samples. With a rethink of recent advances, we find that the current FSS framework has deviated far from the supervised segmentation framework: Given the deep features, FSS methods typically use an intricate decoder to perform sophisticated pixel-wise matching, while the supervised segmentation methods use a simple linear classification head. Due to the intricacy of the decoder and its matching pipeline, it is not easy to follow such an FSS framework. This paper revives the straightforward framework of "feature extractor $+$ linear classification head" and proposes a novel Feature-Proxy Transformer (FPTrans) method, in which the "proxy" is the vector representing a semantic class in the linear classification head. FPTrans has two keypoints for learning discriminative features and representative proxies: 1) To better utilize the limited support samples, the feature extractor makes the query interact with the support features from the bottom to top layers using a novel prompting strategy. 2) FPTrans uses multiple local background proxies (instead of a single one) because the background is not homogeneous and may contain some novel foreground regions. These two keypoints are easily integrated into the vision transformer backbone with the prompting mechanism in the transformer. Given the learned features and proxies, FPTrans directly compares their cosine similarity for segmentation. Although the framework is straightforward, we show that FPTrans achieves competitive FSS accuracy on par with state-of-the-art decoder-based methods.

研究の動機と目的

  • 特徴抽出器+線形ヘッド」という監視付きセグメンテーションと整合した、よりシンプルなFSSフレームワークを提唱する。
  • 限られたサポートサンプルで効果的なクエリ-サポート相互作用を可能にする、 promptingベースの機構を開発する。
  • 新規クラスへの一般化を改善するために、複数の局所背景プロキシを導入する。

提案手法

  • foreground を注入する新規の prompting 戦略を用いて、ビジョン・トランスフォーマーをバックボーンとして用い、複数の局所背景プロンプトを注入する。
  • 分類ヘッドのために、サポート画像とマスクからオンザフライのプロキシ(特徴ベースおよびプロンプトベース)を生成する。
  • クエリとサポート間のプロンプトトークンを同期させ、効率的なクロスアテンションと相互作用を可能にする(プロンプト同期)。
  • トランスフォーマーを通して特徴とプロキシを抽出し、次にピクセル単位のコサイン類似度ベースの分類を、クロスエントロピーとペアワイズ損失を用いて行う。
  • 特徴ベースおよびプロンプトベースのプロキシを用いた2つの分類損失の和と、ペアワイズ前景特徴プル損失で訓練する。

実験結果

リサーチクエスチョン

  • RQ1慎重に設計されたプロキシと prompting によって、プレーンな特徴抽出器+線形ヘッドのフレームワークは、デコーダー ベースの FSS 手法と同等になれるか。
  • RQ2複数の局所背景プロキシは、FSS における新規クラスの一般化を向上させるか。
  • RQ3prompting を介したクエリ-サポート相互作用は、精度を維持しつつ相互作用の複雑さを削減するか。

主な発見

  • FPTrans は、データセットとバックボーンを横断して、最先端のデコーダーベース手法と同等の FSS 精度を達成する。
  • 複数の局所背景プロキシとクエリ-サポート prompting の併用は、プレーンなベースラインより一貫した改善をもたらし、アブレーション実験が寄与を裏付ける。
  • PASCAL-5i および COCO-20i において、ViT/DeiT バックボーンを用いる FPTrans はいくつかの強力なベースラインを上回り、ドメインシフトの状況下で顕著な改善を示す。
  • プロンプト同期は、クロスアテンションのフローにおける相互作用の複雑さを O(N^2) から O(N) に削減しつつ、効果的な特徴およびプロキシ学習を可能にする。
  • 特徴ベースおよびプロンプトベースのプロキシ分類とペアワイズ前景特徴損失の両方を用いた訓練は、特にサポートサンプルが少ない場合にFSS性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。