Skip to main content
QUICK REVIEW

[论文解读] Fast Online Object Tracking and Segmentation: A Unifying Approach

Qiang Wang, Li Zhang|arXiv (Cornell University)|Dec 12, 2018
Video Surveillance and Tracking Methods参考文献 51被引用 98
一句话总结

SiamMask 将完全卷积的 Siamese trackers 扩展为具有二值分割分支,以联合执行实时对象跟踪和半监督视频对象分割,在 VOT-2018 上实现实时追踪的最先进水平,并在 DAVIS-2016/2017 上具竞争力、最快的性能。

ABSTRACT

In this paper we illustrate how to perform both visual object tracking and semi-supervised video object segmentation, in real-time, with a single simple approach. Our method, dubbed SiamMask, improves the offline training procedure of popular fully-convolutional Siamese approaches for object tracking by augmenting their loss with a binary segmentation task. Once trained, SiamMask solely relies on a single bounding box initialisation and operates online, producing class-agnostic object segmentation masks and rotated bounding boxes at 55 frames per second. Despite its simplicity, versatility and fast speed, our strategy allows us to establish a new state of the art among real-time trackers on VOT-2018, while at the same time demonstrating competitive performance and the best speed for the semi-supervised video object segmentation task on DAVIS-2016 and DAVIS-2017. The project website is http://www.robots.ox.ac.uk/~qwang/SiamMask.

研究动机与目标

  • 推动一个简单、统一的在线跟踪与视频对象分割的方法。
  • 通过预测逐帧二值掩码(除了边界框)来改进目标表示。
  • 保持 Siamese 跟踪器的离线可训练性与在线速度特性。
  • 在没有测试时微调或大量数据增强的情况下展示实时性能。

提出的方法

  • 在 Siamese 跟踪中扩展一个掩码分支,为每个 RoW(感兴趣区域窗口)预测一个 w×h 的二值掩码。
  • 使用深度卷积交叉相关生成一个密集的多通道响应图,表示候选相似性。
  • 离线训练三个任务头:相似性 (L_sim)、掩码 (L_mask) 和边界框/分数 (L_box/L_score) 损失,合并为一个联合多任务目标。
  • 通过多尺度特征融合和跳跃连接来细化掩码,遵循掩码细化策略。
  • 提供两种推理变体:SiamMask-2B(两分支)和 SiamMask(三分支),使用不同的参考框策略进行在线跟踪。
  • 通过将掩码转换为轴对齐或旋转边界框来评估边界框输出(Min-max、MBR 或 Opt 策略)。

实验结果

研究问题

  • RQ1在不进行测试时微调的情况下,单个离线训练的 Siamese 网络是否能够实现在线跟踪并产生逐帧分割掩码?
  • RQ2添加分割分支是否能提高跟踪精度并实现在实时中的像素级高质量目标表示?
  • RQ3基于掩码的表示对实时跟踪基准(VOT)和半监督 VOS 基准(DAVIS、YouTube-VOS)的性能有何影响?
  • RQ4在从分割掩码导出边界框时,不同边界框生成策略(Min-max、MBR、Opt)之间有哪些权衡?

主要发现

  • SiamMask 在 RTX 2080 GPU 上实现 55–60 fps 的实时运行,且不需要测试时自适应。
  • 在 VOT-2018 上,使用 MBR/Opt 表现的 SiamMask 在实时跟踪器中达到最先进的性能,在 EAO 和准确率指标上有显著提升。
  • SiamMask 与 DAVIS-2016/2017 上的最近快速 VOS 方法具有竞争力,并且在不依赖微调的强基线中是最快的。
  • 两种变体,SiamMask-2B 与 SiamMask,展示了速度与精度之间的权衡,3 分支版本提供更高的准确性,2 分支版本提供更快的推理速度。
  • 使用掩码分支来指导边界框生成可提升跨基准的边界框相关指标。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。