QUICK REVIEW

[論文レビュー] Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks

Tianhe Ren, Shilong Liu|arXiv (Cornell University)|Jan 25, 2024

Multimodal Machine Learning Applications被引用数 88

ひとこと要約

本論文は Segment Anything (SAM) を紹介します。SA-1B（1B のマスクが 11M 枚の画像に対して作成）で学習された、プロンプト可能なセグメンテーションモデルは強力なゼロショット性能を達成し、多様なタスクにわたる対話的でリアルタイムなマスク生成をサポートします。

ABSTRACT

We introduce Grounded SAM, which uses Grounding DINO as an open-set object detector to combine with the segment anything model (SAM). This integration enables the detection and segmentation of any regions based on arbitrary text inputs and opens a door to connecting various vision models. As shown in Fig.1, a wide range of vision tasks can be achieved by using the versatile Grounded SAM pipeline. For example, an automatic annotation pipeline based solely on input images can be realized by incorporating models such as BLIP and Recognize Anything. Additionally, incorporating Stable-Diffusion allows for controllable image editing, while the integration of OSX facilitates promptable 3D human motion analysis. Grounded SAM also shows superior performance on open-vocabulary benchmarks, achieving 48.7 mean AP on SegInW (Segmentation in the wild) zero-shot benchmark with the combination of Grounding DINO-Base and SAM-Huge models.

研究の動機と目的

セグメンテーションタスク全体でゼロショットの一般化を可能にする、プロンプト可能なセグメンテーションタスクを定義する。
さまざまなプロンプトをサポートし、リアルタイムのマスク生成を可能にする、軽量でありながら柔軟なモデル（SAM）を開発する。
自動的に大規模で多様なセグメンテーションデータセット（SA-1B）を構築するデータエンジンを作成する。
複数の下流タスクと分布にわたる SAM のゼロショット転送能力を評価する。
データとモデルの性能における責任あるAIの配慮とバイアスに対処する。

提案手法

任意のプロンプトに対して有効なマスクを返すプロンプト可能なセグメンテーションタスクを提案し、事前学習およびプロンプティングによる下流利用を可能にする。
3つの要素からなる SAM を設計する：事前学習済みの画像エンコーダ、柔軟なプロンプトエンコーダ、そして高速なマスクデコーダ。
各プロンプトに対して複数のマスクとそれに対応する信頼度スコアを許容することで、SAM を曖昧さを考慮できるようにする。
稀疎プロンプトと密プロンプトの混合で学習し、焦点損失とダイス損失を組み合わせた損失と、対話的な使用を反映するための模擬プロンプトのラウンドを用いる。
支援付き手動、半自動、完全自動の段階を備えたデータエンジンを構築し、モデル・イン・ザ・ループ方式でマスクを収集する。
最終的で曖昧さを考慮した SAM を、11M 枚の画像に対して 32x32 のプロンプトグリッドに適用して SA-1B を自動生成し、続いてマスクの精製ステップを実施する。

実験結果

リサーチクエスチョン

RQ1セグメンテーションタスク全体でゼロショットの一般化を可能にするにはどのタスクが適しているか。
RQ2リアルタイム性能と曖昧さ処理を備えたプロンプト可能なセグメンテーションをサポートするモデルアーキテクチャは何か。
RQ3堅牢なプロンプト可能なセグメンテーションモデルを訓練するために、どの程度のデータ規模と多様性が必要か。
RQ4プロンプトを介して下流タスクへ効果的に転移するプロンプト可能なセグメンテーションモデルは作れるか。
RQ5ゼロショット設定におけるさまざまなデータセットと分布で SAM はどのように性能を発揮するか。

主な発見

SAM は単一の前景点から高品質なマスクを得られ、しばしば地上真理の性能に近い。
SAM は 23 のセグメンテーションデータセットに跨る強力なゼロショット転移を示し、専門的なベースラインより上回るか同等であることが多い。
SA-1B データセットは 11M 枚の画像で 1.1B を超えるマスクを含み、規模と多様性の両方で以前のデータセットを大きく上回る。
データエンジンと完全自動段階は、品質を損なうことなくマスク生成をスケール可能にする（サンプルで専門家の注釈との高 IoU）。
曖昧さを考慮したプロンプトは、信頼度スコア付きの複数の有効なマスクを生み出し、曖昧なプロンプトの処理を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。