Skip to main content
QUICK REVIEW

[论文解读] SAM 2: Segment Anything in Images and Videos

Nikhila Ravi, Valentin Gabeur|arXiv (Cornell University)|Aug 1, 2024
Generative Adversarial Networks and Image Synthesis被引用 212
一句话总结

SAM 2 将 Segment Anything Model 扩展到带有流式记忆的视频,建立 SA-V 数据集,在减少用户交互的情况下实现更高的准确性,并且比 SAM 更快的图像分割。

ABSTRACT

We present Segment Anything Model 2 (SAM 2), a foundation model towards solving promptable visual segmentation in images and videos. We build a data engine, which improves model and data via user interaction, to collect the largest video segmentation dataset to date. Our model is a simple transformer architecture with streaming memory for real-time video processing. SAM 2 trained on our data provides strong performance across a wide range of tasks. In video segmentation, we observe better accuracy, using 3x fewer interactions than prior approaches. In image segmentation, our model is more accurate and 6x faster than the Segment Anything Model (SAM). We believe that our data, model, and insights will serve as a significant milestone for video segmentation and related perception tasks. We are releasing our main model, dataset, as well as code for model training and our demo.

研究动机与目标

  • 将面向图像与视频的通用可提示视觉分割系统作为动机。
  • 开发一个数据引擎以在尽量少的语义约束下收集大型多样化的视频分割数据集。
  • 提出一个记忆增强的Transformer模型,能够以流式方式处理视频帧以实现实时分割。
  • 证明 SAM 2 在视频和图像任务上以更少的用户交互实现更高的准确性。
  • 发布数据集、模型和一个互动演示,以加速视频分割和相关感知任务的研究。

提出的方法

  • 引入一个可提示的视觉分割任务(PVS),该任务接受任意视频帧上的提示以定义目标对象并在视频中传播一个蒙版片段。
  • 使用一个记忆增强的流式Transformer架构,其中一个记忆库存储过去的预测和提示来给当前帧预测进行条件化。
  • 采用记忆编码器和记忆注意力来将每帧嵌入对过去帧和对象指针进行条件化。
  • 采用受SAM启发的提示编码器和蒙版解码器,具备在提示不明确时输出多组蒙版的能力。
  • 将 SAM 2 与图像和视频数据共同训练,通过真实蒙版片段和纠正提示来模拟互动提示。
  • 通过一个多阶段数据引擎构建 SA-V 数据集,逐步将 SAM 2 引入循环以加速标注并多样化蒙版片段。

实验结果

研究问题

  • RQ1一台模型如何在图像和视频上实现对提示分割的能力?
  • RQ2引入流式记忆是否能在减少用户交互的情况下提高视频分割的准确性?
  • RQ3一个大型多样化的视频分割数据集(SA-V)是否能在视频和图像基准上实现零-shot性能提升?
  • RQ4在互动设置下,SAM 2 与最先进的视频对象分割基线相比如何?
  • RQ5在评估提示下,SAM 2 在性别/年龄群体以及不同视频领域中的公平性和泛化属性有哪些?

主要发现

  • SAM 2 提供更好的视频分割准确性,同时比之前的方法减少三倍交互。
  • SAM 2 在交互式和半监督设置下,超过 prior baselines(如 SAM+XMem++、SAM+Cutie)在17个数据集上。
  • SA-V 数据集包含 50.9K 条视频和 3550 万张蒙版(642.6K 个蒙版片段),使蒙版数量比现有 VOS 数据集多出约 53 倍。
  • SAM 2 也提升了图像分割准确性,在标准图像基准上比 SAM 快约 6×。
  • 在评估提示下,在性别/年龄群体等公平性与多样化视频领域中的泛化属性尚无实质性差异。
  • 在 SA-V 与阶段性数据扩增的训练下,在零-shot 基准(SA-V val 和 9 个零-shot 数据集)上获得持续提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。