Skip to main content
QUICK REVIEW

[论文解读] Segment Anything

Alexander M. Kirillov, Eric Mintun|arXiv (Cornell University)|Apr 5, 2023
Advanced Neural Network Applications被引用 519
一句话总结

该论文提出 Segment Anything Model (SAM),一种可提示的分割模型,在 SA-1B 数据集上进行训练,该数据集包含 10亿个掩码、1100万张图像,能够通过提示和模型环路中的数据注释在多任务中实现零-shot 分割。

ABSTRACT

We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M licensed and privacy respecting images. The model is designed and trained to be promptable, so it can transfer zero-shot to new image distributions and tasks. We evaluate its capabilities on numerous tasks and find that its zero-shot performance is impressive -- often competitive with or even superior to prior fully supervised results. We are releasing the Segment Anything Model (SAM) and corresponding dataset (SA-1B) of 1B masks and 11M images at https://segment-anything.com to foster research into foundation models for computer vision.

研究动机与目标

  • 定义一个可提示的分割任务,以实现跨分割任务的零-shot泛化。
  • 开发一个轻量级、实时的 SAM 架构,能够通过提示生成多个有效掩码。
  • 打造一个可扩展的数据引擎以构建 SA-1B,这是迄今最大的分割数据集,具备高质量的自动掩码。
  • 在多样化的下游任务和数据集上评估 SAM,以展示其零-shot 转移能力。

提出的方法

  • 提出一个可提示的分割任务,在给定任意提示时都会产生一个有效掩码。
  • 将 SAM 设计为三个组件:图像编码器(基于 ViT)、提示编码器(点、框、文本或掩码),以及快速掩码解码器。
  • 让 SAM 具备歧义感知能力,在每个提示下输出多个带置信度分数的掩码。
  • 构建一个三阶段数据引擎(辅助手动、半自动、全自动),以在模型环路标注下收集 SA-1B 掩码。
  • 通过全自动方式为 11M 张图像生成 11 亿 1 千万掩码。
  • 在 SA-1B 上训练 SAM,并通过摊销的图像嵌入实现实时提示(在浏览器中约 50 ms)。

实验结果

研究问题

  • RQ1哪种任务能够在分割中实现零-shot 泛化?
  • RQ2哪种模型架构支持带有实时掩码生成的可提示分割?
  • RQ3哪些数据可以支撑一个可提示的分割模型,以及它如何大规模收集?

主要发现

  • SAM 在 23 个数据集上实现了对边缘检测、对象建议生成、实例分割以及文本到掩码提示的零样本转移。
  • SAM 能从单个前景点生成高质量掩码,通常接近真实值,且质量评估分数高于基线。
  • 在给定图像嵌入的情况下,SAM 大约在 50 ms 内输出掩码,支持交互式提示。
  • SA-1B 包含超过 1B 掩码,来自 11M 授权图像,在数据引擎的最后阶段自动生成,规模和多样性大于先前的分割数据集。
  • 在 SA-1B 中掩码质量很高,对于 500 张图像样本,当进行专业编辑时,IoU 超过 90% 的比例为 94%;IoU 超过 75% 的比例为 97%。
  • 该数据集在地理与收入分布上相较于先前数据集有更广泛的代表性,但在非洲和低收入地区存在代表性不足的问题。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。