[論文レビュー] Segment Anything
本論文は Segment Anything Model (SAM) を提示する。これは SA-1B(1Bマスク、11M画像のデータセット)で訓練されたプロンプト可能なセグメンテーションモデルであり、モデル・イン・ザ・ループのデータエンジンにおける prompting とデータアノテーションを通じて、タスク間でゼロショットのセグメンテーションを可能にする。
We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M licensed and privacy respecting images. The model is designed and trained to be promptable, so it can transfer zero-shot to new image distributions and tasks. We evaluate its capabilities on numerous tasks and find that its zero-shot performance is impressive -- often competitive with or even superior to prior fully supervised results. We are releasing the Segment Anything Model (SAM) and corresponding dataset (SA-1B) of 1B masks and 11M images at https://segment-anything.com to foster research into foundation models for computer vision.
研究の動機と目的
- セグメンテーションタスク全体でゼロショット一般化を可能にする、プロンプト可能なセグメンテーションタスクを定義する。
- 複数の有効なマスクを生成するためにプロンプト可能な、軽量でリアルタイムな SAM アーキテクチャを開発する。
- 高品質な自動マスクを備えた、現時点で最大級のセグメンテーションデータセット SA-1B を構築するための、スケーラブルなデータエンジンを作成する。
- 多様な下流タスクとデータセットにわたって SAM を評価し、ゼロショット転送能力を実証する。
提案手法
- 任意のプロンプトに対して有効なマスクを生成する、プロンプト可能なセグメンテーションタスクを提案する。
- 画像エンコーダ(ViTベース)、プロンプトエンコーダ(点、ボックス、テキスト、またはマスク)、高速マスクデコーダの3つの構成要素を備えた SAM を設計する。
- プロンプトごとに複数のマスクと信頼度スコアを出力できるよう、SAM を曖昧性対応にする。
- モデル・イン・ザ・ループのラベリングを用いて SA-1B マスクを収集する、支援型手動、半自動、完全自動の3段階データエンジンを構築する。
- 11M画像に対して自動的に1.1Bマスクを完全自動生成して SA-1B を組み立てる。
- SA-1B を訓練データとして使用し、画像埋め込みをアモルタイズして、ブラウザ上で約50 ms のリアルタイム prompting を可能にする。
実験結果
リサーチクエスチョン
- RQ1セグメンテーションにおけるゼロショット一般化を可能にするタスクは何か?
- RQ2リアルタイムのマスク生成を伴うプロンプト可能なセグメンテーションを支えるモデルアーキテクチャは何か?
- RQ3プロンプト可能なセグメンテーションモデルを支えるデータには何があり、それを大規模に収集する方法は?
主な発見
- SAM は 23 データセットにわたり、エッジ検出、オブジェクト提案生成、インスタンスセグメンテーション、およびテキスト-to-マスクのプロンプトへゼロショット転送を達成する。
- SAM は単一の前景点から高品質なマスクを生成でき、しばしば真値に近く、人間評価の品質もベースラインより高い。
- SAM は画像埋め込みを与えると約50 ms でマスクを出力し、インタラクティブな prompting を可能にする。
- SA-1B は 11M の認可済み画像からの 1B を超えるマスクを含み、データエンジンの最終段階で自動的に生成され、先行するセグメンテーションデータセットよりも大規模で多様である。
- マスク品質は高く、SA-1B は専門家による編集と組み合わせた場合、500 画像サンプルで IoU > 90% が 94%、 IoU > 75% が 97%。
- このデータセットは、地理的・所得層の表現の広範な改善を prior データセットより示す一方、アフリカおよび低所得地域での過小代表に留意がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。