QUICK REVIEW

[論文レビュー] Segment Anything

Alexander M. Kirillov, Eric Mintun|arXiv (Cornell University)|Apr 5, 2023

Advanced Neural Network Applications被引用数 519

ひとこと要約

本論文は Segment Anything Model (SAM) を提示する。これは SA-1B（1Bマスク、11M画像のデータセット）で訓練されたプロンプト可能なセグメンテーションモデルであり、モデル・イン・ザ・ループのデータエンジンにおける prompting とデータアノテーションを通じて、タスク間でゼロショットのセグメンテーションを可能にする。

ABSTRACT

We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M licensed and privacy respecting images. The model is designed and trained to be promptable, so it can transfer zero-shot to new image distributions and tasks. We evaluate its capabilities on numerous tasks and find that its zero-shot performance is impressive -- often competitive with or even superior to prior fully supervised results. We are releasing the Segment Anything Model (SAM) and corresponding dataset (SA-1B) of 1B masks and 11M images at https://segment-anything.com to foster research into foundation models for computer vision.

研究の動機と目的

セグメンテーションタスク全体でゼロショット一般化を可能にする、プロンプト可能なセグメンテーションタスクを定義する。
複数の有効なマスクを生成するためにプロンプト可能な、軽量でリアルタイムな SAM アーキテクチャを開発する。
高品質な自動マスクを備えた、現時点で最大級のセグメンテーションデータセット SA-1B を構築するための、スケーラブルなデータエンジンを作成する。
多様な下流タスクとデータセットにわたって SAM を評価し、ゼロショット転送能力を実証する。

提案手法

任意のプロンプトに対して有効なマスクを生成する、プロンプト可能なセグメンテーションタスクを提案する。
画像エンコーダ（ViTベース）、プロンプトエンコーダ（点、ボックス、テキスト、またはマスク）、高速マスクデコーダの3つの構成要素を備えた SAM を設計する。
プロンプトごとに複数のマスクと信頼度スコアを出力できるよう、SAM を曖昧性対応にする。
モデル・イン・ザ・ループのラベリングを用いて SA-1B マスクを収集する、支援型手動、半自動、完全自動の3段階データエンジンを構築する。
11M画像に対して自動的に1.1Bマスクを完全自動生成して SA-1B を組み立てる。
SA-1B を訓練データとして使用し、画像埋め込みをアモルタイズして、ブラウザ上で約50 ms のリアルタイム prompting を可能にする。

実験結果

リサーチクエスチョン

RQ1セグメンテーションにおけるゼロショット一般化を可能にするタスクは何か？
RQ2リアルタイムのマスク生成を伴うプロンプト可能なセグメンテーションを支えるモデルアーキテクチャは何か？
RQ3プロンプト可能なセグメンテーションモデルを支えるデータには何があり、それを大規模に収集する方法は？

主な発見

SAM は 23 データセットにわたり、エッジ検出、オブジェクト提案生成、インスタンスセグメンテーション、およびテキスト-to-マスクのプロンプトへゼロショット転送を達成する。
SAM は単一の前景点から高品質なマスクを生成でき、しばしば真値に近く、人間評価の品質もベースラインより高い。
SAM は画像埋め込みを与えると約50 ms でマスクを出力し、インタラクティブな prompting を可能にする。
SA-1B は 11M の認可済み画像からの 1B を超えるマスクを含み、データエンジンの最終段階で自動的に生成され、先行するセグメンテーションデータセットよりも大規模で多様である。
マスク品質は高く、SA-1B は専門家による編集と組み合わせた場合、500 画像サンプルで IoU > 90% が 94%、 IoU > 75% が 97%。
このデータセットは、地理的・所得層の表現の広範な改善を prior データセットより示す一方、アフリカおよび低所得地域での過小代表に留意がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。