[论文解读] Segment Anything
该论文提出 Segment Anything Model (SAM),一种可提示的分割模型,在 SA-1B 数据集上进行训练,该数据集包含 10亿个掩码、1100万张图像,能够通过提示和模型环路中的数据注释在多任务中实现零-shot 分割。
We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M licensed and privacy respecting images. The model is designed and trained to be promptable, so it can transfer zero-shot to new image distributions and tasks. We evaluate its capabilities on numerous tasks and find that its zero-shot performance is impressive -- often competitive with or even superior to prior fully supervised results. We are releasing the Segment Anything Model (SAM) and corresponding dataset (SA-1B) of 1B masks and 11M images at https://segment-anything.com to foster research into foundation models for computer vision.
研究动机与目标
- 定义一个可提示的分割任务,以实现跨分割任务的零-shot泛化。
- 开发一个轻量级、实时的 SAM 架构,能够通过提示生成多个有效掩码。
- 打造一个可扩展的数据引擎以构建 SA-1B,这是迄今最大的分割数据集,具备高质量的自动掩码。
- 在多样化的下游任务和数据集上评估 SAM,以展示其零-shot 转移能力。
提出的方法
- 提出一个可提示的分割任务,在给定任意提示时都会产生一个有效掩码。
- 将 SAM 设计为三个组件:图像编码器(基于 ViT)、提示编码器(点、框、文本或掩码),以及快速掩码解码器。
- 让 SAM 具备歧义感知能力,在每个提示下输出多个带置信度分数的掩码。
- 构建一个三阶段数据引擎(辅助手动、半自动、全自动),以在模型环路标注下收集 SA-1B 掩码。
- 通过全自动方式为 11M 张图像生成 11 亿 1 千万掩码。
- 在 SA-1B 上训练 SAM,并通过摊销的图像嵌入实现实时提示(在浏览器中约 50 ms)。
实验结果
研究问题
- RQ1哪种任务能够在分割中实现零-shot 泛化?
- RQ2哪种模型架构支持带有实时掩码生成的可提示分割?
- RQ3哪些数据可以支撑一个可提示的分割模型,以及它如何大规模收集?
主要发现
- SAM 在 23 个数据集上实现了对边缘检测、对象建议生成、实例分割以及文本到掩码提示的零样本转移。
- SAM 能从单个前景点生成高质量掩码,通常接近真实值,且质量评估分数高于基线。
- 在给定图像嵌入的情况下,SAM 大约在 50 ms 内输出掩码,支持交互式提示。
- SA-1B 包含超过 1B 掩码,来自 11M 授权图像,在数据引擎的最后阶段自动生成,规模和多样性大于先前的分割数据集。
- 在 SA-1B 中掩码质量很高,对于 500 张图像样本,当进行专业编辑时,IoU 超过 90% 的比例为 94%;IoU 超过 75% 的比例为 97%。
- 该数据集在地理与收入分布上相较于先前数据集有更广泛的代表性,但在非洲和低收入地区存在代表性不足的问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。