QUICK REVIEW

[论文解读] Segment Anything

Alexander M. Kirillov, Eric Mintun|arXiv (Cornell University)|Apr 5, 2023

Advanced Neural Network Applications被引用 519

一句话总结

该论文提出 Segment Anything Model (SAM)，一种可提示的分割模型，在 SA-1B 数据集上进行训练，该数据集包含 10亿个掩码、1100万张图像，能够通过提示和模型环路中的数据注释在多任务中实现零-shot 分割。

ABSTRACT

We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M licensed and privacy respecting images. The model is designed and trained to be promptable, so it can transfer zero-shot to new image distributions and tasks. We evaluate its capabilities on numerous tasks and find that its zero-shot performance is impressive -- often competitive with or even superior to prior fully supervised results. We are releasing the Segment Anything Model (SAM) and corresponding dataset (SA-1B) of 1B masks and 11M images at https://segment-anything.com to foster research into foundation models for computer vision.

研究动机与目标

定义一个可提示的分割任务，以实现跨分割任务的零-shot泛化。
开发一个轻量级、实时的 SAM 架构，能够通过提示生成多个有效掩码。
打造一个可扩展的数据引擎以构建 SA-1B，这是迄今最大的分割数据集，具备高质量的自动掩码。
在多样化的下游任务和数据集上评估 SAM，以展示其零-shot 转移能力。

提出的方法

提出一个可提示的分割任务，在给定任意提示时都会产生一个有效掩码。
将 SAM 设计为三个组件：图像编码器（基于 ViT）、提示编码器（点、框、文本或掩码），以及快速掩码解码器。
让 SAM 具备歧义感知能力，在每个提示下输出多个带置信度分数的掩码。
构建一个三阶段数据引擎（辅助手动、半自动、全自动），以在模型环路标注下收集 SA-1B 掩码。
通过全自动方式为 11M 张图像生成 11 亿 1 千万掩码。
在 SA-1B 上训练 SAM，并通过摊销的图像嵌入实现实时提示（在浏览器中约 50 ms）。

实验结果

研究问题

RQ1哪种任务能够在分割中实现零-shot 泛化？
RQ2哪种模型架构支持带有实时掩码生成的可提示分割？
RQ3哪些数据可以支撑一个可提示的分割模型，以及它如何大规模收集？

主要发现

SAM 在 23 个数据集上实现了对边缘检测、对象建议生成、实例分割以及文本到掩码提示的零样本转移。
SAM 能从单个前景点生成高质量掩码，通常接近真实值，且质量评估分数高于基线。
在给定图像嵌入的情况下，SAM 大约在 50 ms 内输出掩码，支持交互式提示。
SA-1B 包含超过 1B 掩码，来自 11M 授权图像，在数据引擎的最后阶段自动生成，规模和多样性大于先前的分割数据集。
在 SA-1B 中掩码质量很高，对于 500 张图像样本，当进行专业编辑时，IoU 超过 90% 的比例为 94%；IoU 超过 75% 的比例为 97%。
该数据集在地理与收入分布上相较于先前数据集有更广泛的代表性，但在非洲和低收入地区存在代表性不足的问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。