Skip to main content
QUICK REVIEW

[論文レビュー] Intermediate Prototype Mining Transformer for Few-Shot Semantic Segmentation

Yuanwei Liu, Nian Liu|arXiv (Cornell University)|Oct 13, 2022
Advanced Neural Network Applications被引用数 37
ひとこと要約

サポート決定論とクエリ適応性を組み合わせる中間プロトタイプを学習する Intermediate Prototype Mining Transformer (IPMT) を提案し、クエリ特徴を反復的に洗練させて、少数ショットセマンティックセグメンテーションの精度を向上させます。

ABSTRACT

Few-shot semantic segmentation aims to segment the target objects in query under the condition of a few annotated support images. Most previous works strive to mine more effective category information from the support to match with the corresponding objects in query. However, they all ignored the category information gap between query and support images. If the objects in them show large intra-class diversity, forcibly migrating the category information from the support to the query is ineffective. To solve this problem, we are the first to introduce an intermediate prototype for mining both deterministic category information from the support and adaptive category knowledge from the query. Specifically, we design an Intermediate Prototype Mining Transformer (IPMT) to learn the prototype in an iterative way. In each IPMT layer, we propagate the object information in both support and query features to the prototype and then use it to activate the query feature map. By conducting this process iteratively, both the intermediate prototype and the query feature can be progressively improved. At last, the final query feature is used to yield precise segmentation prediction. Extensive experiments on both PASCAL-5i and COCO-20i datasets clearly verify the effectiveness of our IPMT and show that it outperforms previous state-of-the-art methods by a large margin. Code is available at https://github.com/LIUYUANWEI98/IPMT

研究の動機と目的

  • 少数ショットセマンティックセグメンテーションにおけるサポートとクエリ間の同一クラス内の多様性に対処する。
  • サポート画像とクエリ画像間のカテゴリ情報ギャップを埋める中間プロトタイプを提案する。
  • 中間プロトタイプとクエリ特徴を逐次的に洗練させ、正確なセグメンテーションを実現する反復的なIPMTフレームワークを開発する。
  • PASCAL-5iおよびCOCO-20iのベンチマークで最先端性能を示す。
  • 中間プロトタイプがサポートプロトタイプとクエリプロトタイプ間のクラス内距離をどのように低減するかについて洞察を提供する。

提案手法

  • 各レイヤーを2つのステップで構成する Intermediate Prototype Mining Transformer (IPMT) を定義する:Intermediate Prototype Mining (IPM) と Query Activation (QA)。
  • IPM は、サポート特徴とクエリ特徴の両方にマスク付きのクロスアテンションを適用することで、中間プロトタイプ G を学習し、サポートマスクとクエリ予測によって導かれる。
  • QA は、結合と活性化ネットワークを介して学習済みプロトタイプ G を用いてクエリ特徴マップ Fq を活性化し、文脈集約のための任意の変形可能なセルフアテンションを用いる。
  • ターゲット領域にプロトタイプ更新を集中させるよう、マスク付きアテンション機構を用い、真のサポートマスク Ms とクエリ予測マスク Pq の両方を活用する。
  • Gから生成されたマスクをサポート画像とクエリ画像の両方で監督する Duplex Segmentation Loss (Ldsl) で訓練する。
  • L IPMT 層を用いた反復スキームで、最終的なセグメンテーションを改善するために、G、Fq、Pq(Gl、Fql、Pql)を段階的に洗練させる。

実験結果

リサーチクエスチョン

  • RQ1Can an intermediate prototype mitigate the information gap between support and query in FSS?
  • RQ2Does iterative refinement of the intermediate prototype and query features yield improved segmentation performance?
  • RQ3How does combining deterministic support information with adaptive query knowledge affect prototype quality and segmentation accuracy?
  • RQ4What is the impact of DSL and QA components on overall performance in IPMT?
  • RQ5How does IPMT perform on standard FSS benchmarks (PASCAL-5i and COCO-20i) compared to prior state-of-the-art methods?

主な発見

  • IPMT outperforms state-of-the-art methods on PASCAL-5i and COCO-20i across 1-shot and 5-shot settings with ResNet backbones.
  • The intermediate prototype G, derived from both support and query contexts, is closer to the query prototype than the support prototype, reducing intra-class diversity.
  • Iterative IPMT layers progressively improve prototype quality and segmentation results, with five layers yielding notable gains.
  • Duplex Segmentation Loss (DSL) and Query Activation (QA) contribute substantially to performance; removing them degrades results.
  • Ablations show gains from using both support and query information in IPM and from iteration, validating the design choices.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。