[論文レビュー] RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model
tldr: 本論文は、RSPrompterという学習可能なプロンプト生成器を提案し、SAM基盤モデルをリモートセンシング画像のセマンティック情報を考慮したインスタンス分割へ適応させ、複数のRSデータセットで検証しています。
Leveraging the extensive training data from SA-1B, the Segment Anything Model (SAM) demonstrates remarkable generalization and zero-shot capabilities. However, as a category-agnostic instance segmentation method, SAM heavily relies on prior manual guidance, including points, boxes, and coarse-grained masks. Furthermore, its performance in remote sensing image segmentation tasks remains largely unexplored and unproven. In this paper, we aim to develop an automated instance segmentation approach for remote sensing images, based on the foundational SAM model and incorporating semantic category information. Drawing inspiration from prompt learning, we propose a method to learn the generation of appropriate prompts for SAM. This enables SAM to produce semantically discernible segmentation results for remote sensing images, a concept we have termed RSPrompter. We also propose several ongoing derivatives for instance segmentation tasks, drawing on recent advancements within the SAM community, and compare their performance with RSPrompter. Extensive experimental results, derived from the WHU building, NWPU VHR-10, and SSDD datasets, validate the effectiveness of our proposed method. The code for our method is publicly available at kychen.me/RSPrompter.
研究の動機と目的
- SAM基盤モデルをリモートセンシングのインスタンス分割へ適用可能性を調査する。
- SAM向けのカテゴリ関連プロンプトを生成する学習型プロンプト生成モジュールを開発する。
- SAMのプロンプトに意味カテゴリ情報を組み込んでRSのインスタンス分割を向上させる。
提案手法
- RSPrompterを導入する。SAMのカテゴリ関連のプロンプト埋め込みを出力する軽量な特徴強化器兼プロンプト生成器。
- アンカー型とクエリ型の2つのプロンプト生成器を実装し、インスタンスレベルのプロンプトとセマンティックラベルを生成する。
- マルチスケール特徴強化器を用いてSAMバックボーンの特徴を融合し、プロンプターへ豊富な意味情報を提供する。
- RPN/オブジェクトネス、セマンティック/分類、ボックス回帰、SAMベースのセグメンテーション項目を含む複合損失で訓練する(クエリ型プロンプターには最適輸送ベースのマッチングを適用)。
- 比較分析のため、RS志向の3つの代替設定(SAM-seg、SAM-cls、SAM-det)でSAMを拡張する。)
実験結果
リサーチクエスチョン
- RQ1学習型プロンプトにより、SAMを自動的かつセマンティックに認識されたインスタンス分割に適応させることができるか。
- RQ2どのプロンプト表現(アンカー型またはクエリ型)がRS画像でカテゴリ特異的マスクを最も効果的に実現するか。
- RQ3RS強化SAMのバリアント(RSPrompter、SAM-seg、SAM-cls、SAM-det)は、サイズやモダリティが異なるRSデータセットでどのように性能を発揮するか。
主な発見
- RSPrompterは、意味カテゴリに合わせて学習したプロンプトにより、RS画像でカテゴリ認識型のインスタンスレベル分割を可能にする。
- WHUビルディング、NWPU VHR-10、SSDDの3つのRSデータセットで検証され、SAMと学習済みプロンプトの有効性を示している。
- 本論文は広範なアブレーションと、代替のSAMベース適応(SAM-seg、SAM-cls、SAM-det)との比較を提供する。
- 2つのプロンプト生成パラダイム(アンカー型とクエリ型)を提案・評価し、クエリ型ではFaster R-CNN風損失とハンガリー整列に合わせた目的関数を用いる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。