[論文レビュー] Segment Everything Everywhere All at Once
SEEMは、複数のセグメンテーションタスク(汎用、参照、対話、動画)を1つの普遍的なインターフェースに統合する、プロンプト可能な対話型モデルです。共同の視覚-意味的 prompting 空間と、反復的な改良のためのメモリプロンプトを使用します。
In this work, we present SEEM, a promptable and interactive model for segmenting everything everywhere all at once in an image, as shown in Fig.1. In SEEM, we propose a novel decoding mechanism that enables diverse prompting for all types of segmentation tasks, aiming at a universal segmentation interface that behaves like large language models (LLMs). More specifically, SEEM is designed with four desiderata: i) Versatility. We introduce a new visual prompt to unify different spatial queries including points, boxes, scribbles and masks, which can further generalize to a different referring image; ii) Compositionality. We learn a joint visual-semantic space between text and visual prompts, which facilitates the dynamic composition of two prompt types required for various segmentation tasks; iii) Interactivity. We further incorporate learnable memory prompts into the decoder to retain segmentation history through mask-guided cross-attention from decoder to image features; and iv) Semantic-awareness. We use a text encoder to encode text queries and mask labels into the same semantic space for open-vocabulary segmentation. We conduct a comprehensive empirical study to validate the effectiveness of SEEM across diverse segmentation tasks. Notably, our single SEEM model achieves competitive performance across interactive segmentation, generic segmentation, referring segmentation, and video object segmentation on 9 datasets with minimum 1/100 supervision. Furthermore, SEEM showcases a remarkable capacity for generalization to novel prompts or their combinations, rendering it a readily universal image segmentation interface.
研究の動機と目的
- 多様なプロンプトとタスクを扱う普遍的なセグメンテーションインターフェースの必要性を動機付ける。
- 空間的クエリ、テキスト、記憶された履歴を共有の視覚-意味空間にエンコードするプロンプト方式を提案する。
- ゼロショットプロンプト結合、対話性、オープンセット意味論をサポートする軽量なデコーダベースのモデルであるSEEMを開発する。
- SEEMがパンオプティック、インスタンス、セマンティック、参照、対話、動画セグメンテーションタスクで競争力のある性能を示す。
提案手法
- すべてのプロンプトタイプ(ポイント、ボックス、描画、マスク、テキスト、参照領域)を、視覚サンプラーとテキストエンコーダを介して共同の視覚-意味空間にエンコードする。
- クエリとマルチモーダルプロンプト間のクロスアテンションを用いた、Transformerベースのエンコーダ-デコーダ(SEEM-Decoder)を使用して、マスク埋め込みとクラス埋め込みを生成する。
- マスクガイド付きクロスアテンションを介して履歴を運ぶメモリプロンプトを導入し、対話的な改良を可能にする。
- 視覚的プロンプトとテキストプロンプトを出力埋め込みにマッチングさせることで、プロンプトのゼロショット結合を可能にする組成的プロンプティングを有効にする。
- パンオプティック、参照、対話型セグメンテーションの損失を線形結合してトレーニングし、統一されたプロンプトと出力を学習する。
実験結果
リサーチクエスチョン
- RQ1SEEMは、オープンボキャブラリ汎用セグメンテーション、参照セグメンテーション、対話型セグメンテーションを1つのモデルで実現できるか?
- RQ2推論時に、テキスト、視覚、メモリといったプロンプトタイプ間で効果的な組成的プロンプティングを、共同の視覚-意味プロンプティング空間が可能にするか?
- RQ3メモリプロンプティングが、複数ラウンドにわたる対話型セグメンテーションの効率と精度にどのように影響するか?
- RQ4パンオプティック、インスタンス、セマンティック、および動画オブジェクトセグメンテーションにおけるSEEMの性能は、専門モデルと比較してどうか?
- RQ5新規プロンプトやプロンプトの組み合わせに対して、ゼロショットの状況でSEEMはどれだけ一般化できるか?
主な発見
- SEEMは、9データセットで、パンオプティック、インスタンス、セマンティック、参照、対話、動画セグメンテーションの競争力のある性能を、限定的な監視で達成する。
- 視覚的プロンプトと組成的プロンプティングを組み込むことで、参照セグメンテーションの精度が大幅に向上し、特にプロンプトの組み合わせ時に顕著である。
- メモリプロンプトは、履歴を考慮したマスクの改良を軽量デコードで実現し、対話の効率を向上させる。
- SEEMは、動画特有のトレーニングなしでゼロショットの動画オブジェクトセグメンテーション能力を示し、DAVISデータセットでの対話型VOSを含む。
- SEEMは、対話型セグメンテーションにおいていくつかの一般主義またはプロンプト可能なベースラインを上回り、オープンボキャブラリおよびクロスドメインの一般化性能が高い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。