QUICK REVIEW

[論文レビュー] MSANet: Multi-Similarity and Attention Guidance for Boosting Few-Shot Segmentation

Ehtesham Iqbal, Sirojbek Safarov|arXiv (Cornell University)|Jun 20, 2022

Domain Adaptation and Few-Shot Learning被引用数 27

ひとこと要約

MSANetは、 few-shot segmentationを強化するための多重類似度モジュールと注意機構を導入し、多層の視覚的対応と狙いを定めた注意を活用することで、標準ベンチマークで最先端の成果を達成します。

ABSTRACT

Few-shot segmentation aims to segment unseen-class objects given only a handful of densely labeled samples. Prototype learning, where the support feature yields a singleor several prototypes by averaging global and local object information, has been widely used in FSS. However, utilizing only prototype vectors may be insufficient to represent the features for all training data. To extract abundant features and make more precise predictions, we propose a Multi-Similarity and Attention Network (MSANet) including two novel modules, a multi-similarity module and an attention module. The multi-similarity module exploits multiple feature-maps of support images and query images to estimate accurate semantic relationships. The attention module instructs the network to concentrate on class-relevant information. The network is tested on standard FSS datasets, PASCAL-5i 1-shot, PASCAL-5i 5-shot, COCO-20i 1-shot, and COCO-20i 5-shot. The MSANet with the backbone of ResNet-101 achieves the state-of-the-art performance for all 4-benchmark datasets with mean intersection over union (mIoU) of 69.13%, 73.99%, 51.09%, 56.80%, respectively. Code is available at https://github.com/AIVResearch/MSANet

研究の動機と目的

プロトタイプベースのガイダンスを超えた豊かな視覚的対応の組み込みによるfew-shot segmentationの改善を動機づける。
サポート画像とクエリ画像間の多層特徴相関を活用して、多様な文脈情報を捉える。
少数のサポート例を用いて、クラス関連領域に焦点を当てる効率的な注意機構を組み込む。
提案モジュールをベース学習者/アンサンブル学習フレームワークと統合し、セグメンテーション結果を洗練させる。
複数のバックボーンに渡る標準FSSベンチマークで最先端の性能を示す。

提案手法

2つのガイディングモジュールを導入する: サポートとクエリ画像間の高密度視覚対応を実現する多層類似度モジュールと、ターゲットクラス内容を際立たせる軽量注意モジュール。
多層バックボーン特徴（ブロック 2–4）間のコサイン類似度を計算してクロス画像対応を形成し、続いて1x1畳み込みで特徴を融合する。
対応するマスクでサポート特徴をマスク・絞り込み、背景ノイズを減らし堅牢な視覚対応マップを形成。
中間段階のサポート/クエリ特徴を連結して、簡易な1x1畳み込みブロックとプーリングベースの注意機構で注意特徴マップを生成。
ASPPベースの特徴強化モジュールで、多層類似マップ、注意マップ、事前マスク、およびクラスプロトタイプベクトルを統合し、小型分類ヘッドで2値セグメンテーションマスクを予測。
ベースクラスで訓練されたベース学習機（PSPNet様式）と精錬のためのアンサンブルモジュールで最終予測を強化。
エピソードごとに二値交差エントロピー損失で訓練し、標準的なメタ学習プロトコルに従い、K-shot設定ではオプションで平均化を適用。

実験結果

リサーチクエスチョン

RQ1サポート画像とクエリ画像間の多層視覚対応を用いることで、few-shot設定におけるセグメンテーション精度を向上させることができるか？
RQ2限られたサポートデータに導かれた軽量注意モジュールは、ベースクラスのバイアスを抑制し、新規クラスの物体をより良く分離するのに役立つか？
RQ3多層類似性と注意をベース学習機/アンサンブルと統合することが、全体のFSS性能にどのような影響を与えるか？
RQ4FSSの視覚対応の質に対して、異なるバックボーン層はどのように寄与するか？
RQ5MSANetは、共通のFSSベンチマーク（PASCAL-5i、COCO-20i）とさまざまなバックボーンで、1-shotおよび5-shot設定にスケーリング可能か？

主な発見

MSANetは、1-shotおよび5-shot設定の4つのFSSベンチマーク（Pascal-5iとCOCO-20i）で最先端の成果を達成。
ResNet101 backboneでは、MSANetはmIoU 69.13%（Pascal-5i 1-shot）と73.99%（Pascal-5i 5-shot）、および51.09%（COCO-20i 1-shot）と56.80%（COCO-20i 5-shot）を達成。
アブレーション研究は、多層類似度と注意モジュールが最大の改善をもたらし、プロトタイプのみのベースラインを上回り新しいSOTA水準に近づくことを示す。
2つのモジュールを、事前マスク、クラスプロトタイプベクトルといったプロトタイプベースの要素、およびベース学習者アンサンブルと組み合わせると、最終的な性能が最適化される。
可視化は、低次・中間・高次の特徴を組み合わせて対応付けると、単一層アプローチよりも豊かなガイダンスを生み出すことを示している。
MSANetは、バックボーンの選択（VGG16、ResNet50、ResNet101）と-shot設定に対して堅牢性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。