[论文解读] Segment Anything Meets Point Tracking
SAM-PT 将 Segment Anything Model (SAM) 与长期点跟踪相结合,在零-shot 交互式视频分割中使用稀疏查询点实现,在训练阶段不使用视频数据,在多个 VOS/VIS 基准上取得了强结果。
The Segment Anything Model (SAM) has established itself as a powerful zero-shot image segmentation model, enabled by efficient point-centric annotation and prompt-based models. While click and brush interactions are both well explored in interactive image segmentation, the existing methods on videos focus on mask annotation and propagation. This paper presents SAM-PT, a novel method for point-centric interactive video segmentation, empowered by SAM and long-term point tracking. SAM-PT leverages robust and sparse point selection and propagation techniques for mask generation. Compared to traditional object-centric mask propagation strategies, we uniquely use point propagation to exploit local structure information agnostic to object semantics. We highlight the merits of point-based tracking through direct evaluation on the zero-shot open-world Unidentified Video Objects (UVO) benchmark. Our experiments on popular video object segmentation and multi-object segmentation tracking benchmarks, including DAVIS, YouTube-VOS, and BDD100K, suggest that a point-based segmentation tracker yields better zero-shot performance and efficient interactions. We release our code that integrates different point trackers and video segmentation benchmarks at https://github.com/SysCV/sam-pt.
研究动机与目标
- 通过利用基础的图像分割模型(SAM)和稀疏点提示,推动零-shot 交互式视频分割。
- 开发以点为中心的传播框架,在视频帧中跟踪查询点以指导分割。
- 实现掩码细化和偶尔的重新初始化,以在长序列视频中保持准确性。
- 在多样的基准上评估 SAM-PT 在半监督、开放世界、全互动 VOS 和 VIS 设置中的表现。
- 突出实际的交互式标注收益和在没有视频训练数据情况下的零-shot 泛化能力。
提出的方法
- 在 SAM 上扩展长期点跟踪器(如 PIPS、CoTracker),以在帧之间传播正负查询点。
- 从第一帧采样初始的正/负点,方法包括 K-Medoids、Shi-Tomasi、随机或混合采样;在消融研究中建议每个对象八个正点。
- 对每帧进行两次提示SAM:先仅使用正点定位对象,然后使用正点和负点以及先前的掩码进行细化。
- 每个时间步长(h = 8 帧)重新初始化查询点,方法是从最新预测的掩码中抽取新点以从跟踪错误和遮挡中恢复。
实验结果
研究问题
- RQ1将稀疏点传播与 SAM 结合,是否能够在没有任何视频分割训练数据的情况下实现具有竞争力的零-shot 视频分割?
- RQ2不同的点采样策略和跟踪器如何影响在标准基准上的零-shot VOS 性能?
- RQ3采用带正点和负点的两次 SAM 提示方案是否会提升视频帧中的掩码质量?
- RQ4重新初始化点对长序列和如遮挡等挑战性场景的影响是什么?
主要发现
| 方法 | 视频掩码 | 零-shot | 帧初始化 | 传播 | DAVIS 2016 | DAVIS 2017 | YTVOS 2018 |
|---|---|---|---|---|---|---|---|
| SAM-PT (ours) | - | ✓ | Points | Points Prompting | 84.3 | 79.4 | 76.2 |
- SAM-PT 在 DAVIS 2017 (J&F = 79.4) 和 DAVIS 2016 (84.3) 上达到零-shot VOS 的最新水平。
- 在 YouTube-VOS 2018 上,SAM-PT 达到方法中的最高零-shot 分数,J&F = 76.2。
- SAM-PT 超越了若干零-shot 基线,甚至在 UVO 的一些 Fully Supervised VIS 方法上也有竞争力。
- 消融研究显示每个对象八个正点显著提升性能(对比一个),并且加入负点和迭代细化进一步改进结果。
- 每八帧重新初始化点并从更新后的掩码中采样,有助于从跟踪错误和遮挡中恢复,提升跨数据集的鲁棒性。
- SAM-PT 展示出强跨数据集的泛化能力,在零-shot 或互动设置中于 DAVIS、YouTube-VOS、MOSE 以及 BDD100K 表现良好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。