Skip to main content
QUICK REVIEW

[論文レビュー] Segment Anything

Alexander M. Kirillov, Eric Mintun|arXiv (Cornell University)|Apr 5, 2023
Advanced Neural Network Applications被引用数 519
ひとこと要約

本論文は Segment Anything Model (SAM) を提示する。これは SA-1B(1Bマスク、11M画像のデータセット)で訓練されたプロンプト可能なセグメンテーションモデルであり、モデル・イン・ザ・ループのデータエンジンにおける prompting とデータアノテーションを通じて、タスク間でゼロショットのセグメンテーションを可能にする。

ABSTRACT

We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M licensed and privacy respecting images. The model is designed and trained to be promptable, so it can transfer zero-shot to new image distributions and tasks. We evaluate its capabilities on numerous tasks and find that its zero-shot performance is impressive -- often competitive with or even superior to prior fully supervised results. We are releasing the Segment Anything Model (SAM) and corresponding dataset (SA-1B) of 1B masks and 11M images at https://segment-anything.com to foster research into foundation models for computer vision.

研究の動機と目的

  • セグメンテーションタスク全体でゼロショット一般化を可能にする、プロンプト可能なセグメンテーションタスクを定義する。
  • 複数の有効なマスクを生成するためにプロンプト可能な、軽量でリアルタイムな SAM アーキテクチャを開発する。
  • 高品質な自動マスクを備えた、現時点で最大級のセグメンテーションデータセット SA-1B を構築するための、スケーラブルなデータエンジンを作成する。
  • 多様な下流タスクとデータセットにわたって SAM を評価し、ゼロショット転送能力を実証する。

提案手法

  • 任意のプロンプトに対して有効なマスクを生成する、プロンプト可能なセグメンテーションタスクを提案する。
  • 画像エンコーダ(ViTベース)、プロンプトエンコーダ(点、ボックス、テキスト、またはマスク)、高速マスクデコーダの3つの構成要素を備えた SAM を設計する。
  • プロンプトごとに複数のマスクと信頼度スコアを出力できるよう、SAM を曖昧性対応にする。
  • モデル・イン・ザ・ループのラベリングを用いて SA-1B マスクを収集する、支援型手動、半自動、完全自動の3段階データエンジンを構築する。
  • 11M画像に対して自動的に1.1Bマスクを完全自動生成して SA-1B を組み立てる。
  • SA-1B を訓練データとして使用し、画像埋め込みをアモルタイズして、ブラウザ上で約50 ms のリアルタイム prompting を可能にする。

実験結果

リサーチクエスチョン

  • RQ1セグメンテーションにおけるゼロショット一般化を可能にするタスクは何か?
  • RQ2リアルタイムのマスク生成を伴うプロンプト可能なセグメンテーションを支えるモデルアーキテクチャは何か?
  • RQ3プロンプト可能なセグメンテーションモデルを支えるデータには何があり、それを大規模に収集する方法は?

主な発見

  • SAM は 23 データセットにわたり、エッジ検出、オブジェクト提案生成、インスタンスセグメンテーション、およびテキスト-to-マスクのプロンプトへゼロショット転送を達成する。
  • SAM は単一の前景点から高品質なマスクを生成でき、しばしば真値に近く、人間評価の品質もベースラインより高い。
  • SAM は画像埋め込みを与えると約50 ms でマスクを出力し、インタラクティブな prompting を可能にする。
  • SA-1B は 11M の認可済み画像からの 1B を超えるマスクを含み、データエンジンの最終段階で自動的に生成され、先行するセグメンテーションデータセットよりも大規模で多様である。
  • マスク品質は高く、SA-1B は専門家による編集と組み合わせた場合、500 画像サンプルで IoU > 90% が 94%、 IoU > 75% が 97%。
  • このデータセットは、地理的・所得層の表現の広範な改善を prior データセットより示す一方、アフリカおよび低所得地域での過小代表に留意がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。