[論文レビュー] AISFormer: Amodal Instance Segmentation with Transformer
AISFormerはアンモーダルインスタンスセグメンテーションのためのTransformerベースのマスクヘッドを導入し、遮蔽物、可視、アンモーダル、不可視マスクを学習可能なクエリとしてモデル化し、ROIs内のマスク間の整合性を捉えます。KINS、D2SA、COCOA-clsデータセットで最先端のAIS性能を達成します。
Amodal Instance Segmentation (AIS) aims to segment the region of both visible and possible occluded parts of an object instance. While Mask R-CNN-based AIS approaches have shown promising results, they are unable to model high-level features coherence due to the limited receptive field. The most recent transformer-based models show impressive performance on vision tasks, even better than Convolution Neural Networks (CNN). In this work, we present AISFormer, an AIS framework, with a Transformer-based mask head. AISFormer explicitly models the complex coherence between occluder, visible, amodal, and invisible masks within an object's regions of interest by treating them as learnable queries. Specifically, AISFormer contains four modules: (i) feature encoding: extract ROI and learn both short-range and long-range visual features. (ii) mask transformer decoding: generate the occluder, visible, and amodal mask query embeddings by a transformer decoder (iii) invisible mask embedding: model the coherence between the amodal and visible masks, and (iv) mask predicting: estimate output masks including occluder, visible, amodal and invisible. We conduct extensive experiments and ablation studies on three challenging benchmarks i.e. KINS, D2SA, and COCOA-cls to evaluate the effectiveness of AISFormer. The code is available at: https://github.com/UARK-AICV/AISFormer
研究の動機と目的
- 従来のMask R-CNNスタイルのアプローチを超えた、アンモーダルインスタンスセグメンテーション(AIS)における遮蔽の課題に対処する。
- ROI内のマスク要素間の長距離の一貫性をモデル化するため、Transformerベースのマスクヘッドを活用する。
- 特徴をエンコードし、マスククエリをデコードし、不可視マスクを埋め込み、4種類のマスクすべてを予測する4モジュールのAISFormerを提案する。
- 3つのベンチマーク(KINS、D2SA、COCOA-cls)で優れたAIS性能を実証し、設計選択を検証するアブレーションを提供する。
提案手法
- 特徴エンコーディング:バックボーンとROIAlignでROI特徴を抽出し、高解像度にアップスケールして、ROI内部の長距離依存を捉えるためにTransformerエンコーダを適用する。
- マスクトランスフォーマーのデコード:トランスフォーマーデコーダを用いて、遮蔽物、可視、アンモーダルマスクの3つの学習可能なマスククエリ埋め込みを生成し、クエリ間の自己注意とエンコード済みROI特徴とのクロス注意を行う。
- 不可視マスク埋め込み:可視マスクとアンモーダルマスクの間の整合性を、可視・アンモーダルクエリを結合したMLPに入力して不可視マスク埋め込みを出力する。
- マスク予測:ROIのピクセル単位の埋め込みを計算し、クエリ埋め込みとブレンドして、ドット積融合アプローチにより4つのマスク(遮蔽物、可視、アンモーダル、不可視)を予測する。
- 最適化:4つのマスクすべての予測を監視するためにクロスエントロピー損失を用いてエンドツーエンドで訓練する。
実験結果
リサーチクエスチョン
- RQ1トランスフォーマー型のマスクヘッドは、ROI内の遮蔽物、可視、アンモーダル、不可視マスク間のコヒーレンスを効果的にモデル化できるか。
- RQ2遮蔽物、可視、アンモーダルマスクの学習可能なクエリが、形状事前知識ベースや非トランスフォーマーベースのベースラインよりAIS性能を改善するか。
- RQ3不可視マスク埋め込みは、可視マスクとアンモーダルマスクの関係を捉えるのにどのように寄与するか。
- RQ4AISFormerは異なるバックボーンを持つ複数のアンモーダルセグメンテーションベンチマーク(KINS、D2SA、COCOA-cls)で有効か。
- RQ5各クエリタイプと不可視埋め込みの必要性について、どのようなアブレーションが示されるか。
主な発見
| モデル | バックボーン | 掲載先 | 形状事前情報 | AP | AP50 | AP75 | AR |
|---|---|---|---|---|---|---|---|
| AISFormer | ResNet-50 | – | – | 33.8 | 57.8 | 35.3 | 21.1 |
| AISFormer | ResNet-101 | – | – | 34.6 | 58.2 | 36.7 | 21.9 |
| AISFormer | RegNet | – | – | 35.6 | 59.9 | 37.0 | 22.5 |
- Transformerベースのマスクヘッドを持つAISFormerは、KINS、D2SA、COCOA-clsデータセットでいくつかの最先端手法と比較して優れたAIS性能を達成。
- バックボーン(ResNet-50、ResNet-101、RegNet)全体で、AISFormerは常にアンモーダルセグメンテーションのAPとAR指標を改善。
- アブレーションは、遮蔽物、可視、不可視の各クエリ埋め込みを追加するごとに性能が段階的に改善され、不可視埋め込みを含む完全なAISFormerが最良の結果をもたらす。
- ResNet-50を用いたKINSでAISFormerは形状事前情報ベースおよび非形状事前情報ベースのベースラインを数ポイントのAPで上回る;RegNetバックボーンでは比較の中で最良のAP/AR値を達成。
- D2SAおよびCOCOA-clsでは、形状を前提としないアプローチの中で競争力を維持し、最先端に匹敵または上回り、4つのマスクタイプを重い事前情報なしでモデリングする強さを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。