Skip to main content
QUICK REVIEW

[论文解读] Multi-Object Tracking with Siamese Track-RCNN

Bing Shuai, Andrew Berneshawi|arXiv (Cornell University)|Apr 16, 2020
Video Surveillance and Tracking Methods参考文献 59被引用 24
一句话总结

本文提出 Siamese Track-RCNN,一种统一的两阶段检测与跟踪框架,将检测、运动跟踪和重识别整合到一个共享主干分支的端到端神经网络中。通过联合训练和推理,该方法在 MOT16(59.8 MOTA)和 MOT17(59.6 MOTA)上实现了最先进性能,同时保持了高效率。

ABSTRACT

Multi-object tracking systems often consist of a combination of a detector, a short term linker, a re-identification feature extractor and a solver that takes the output from these separate components and makes a final prediction. Differently, this work aims to unify all these in a single tracking system. Towards this, we propose Siamese Track-RCNN, a two stage detect-and-track framework which consists of three functional branches: (1) the detection branch localizes object instances; (2) the Siamese-based track branch estimates the object motion and (3) the object re-identification branch re-activates the previously terminated tracks when they re-emerge. We test our tracking system on two popular datasets of the MOTChallenge. Siamese Track-RCNN achieves significantly higher results than the state-of-the-art, while also being much more efficient, thanks to its unified design.

研究动机与目标

  • 解决现有多目标跟踪(MOT)系统依赖于独立且计算成本高昂的检测、跟踪和重识别组件的局限性。
  • 克服 Tracktor 的不足,例如缺乏外观建模能力,以及在目标短暂遮挡或消失后无法重新识别的问题。
  • 设计一种统一的、可端到端训练的框架,联合优化检测、运动估计和重识别,以提升准确性和效率。
  • 通过引入基于 Siamese 的重识别分支,实现对已终止轨迹在重新出现时的重新激活,从而增强长期跟踪的鲁棒性。
  • 在标准 MOT 基准上展示卓越性能,同时保持低计算成本和内存占用。

提出的方法

  • 提出一种两阶段框架,包含三个共享分支组件:检测、基于 Siamese 的跟踪和重识别,所有组件共享一个主干网络。
  • 在跟踪分支中使用 Siamese 网络,通过比较参考帧和搜索区域的特征来估计目标运动和可见性。
  • 训练重识别分支,以计算候选检测与现有轨迹之间的嵌入差异,实现长期轨迹的重新激活。
  • 实现一种在线求解器,利用学习到的嵌入差异阈值和运动特征,判断是否应重新激活已终止的轨迹。
  • 通过在可变时间窗口 δ 内采样帧对来增强训练数据(δ 优化为 30 帧,约 1 秒),以提升对运动变化的鲁棒性。
  • 采用端到端训练,联合优化所有三个分支,实现特征共享和任务间的相互提升。

实验结果

研究问题

  • RQ1统一的深度学习框架能否通过联合优化检测、运动跟踪和重识别,超越模块化、多组件 MOT 系统?
  • RQ2与单帧回归基线相比,引入基于 Siamese 的跟踪分支在运动估计和遮挡鲁棒性方面有何提升?
  • RQ3与启发式重识别嵌入阈值法相比,可学习的轨迹重新激活机制在多大程度上提升了长期跟踪性能?
  • RQ4用于训练 Siamese 跟踪和重识别分支的最优时间采样范围 δ 是多少,以在多样性与一致性之间取得平衡?
  • RQ5检测、跟踪和重识别分支的联合训练如何影响整体跟踪准确性和效率?

主要发现

  • Siamese Track-RCNN 在 MOT16 和 MOT17 基准上实现了最先进性能,分别取得 59.8 MOTA 和 59.6 MOTA,优于先前的 SOTA 方法。
  • 在 JTA 数据集上的消融实验表明,包含所有组件的完整模型达到 39.7 AP50 和 18.5 AP75,显著优于各消融变体。
  • 与非 Siamese 替代方案相比,跟踪分支中使用 Siamese 结构使性能提升 4.5 AP50(29.3 vs 24.8),验证了该设计选择的有效性。
  • 最优训练采样范围 δ = 30 帧(约 1 秒)时性能最高(39.7 AP50),而更小(δ=8)或更大(δ=45)的范围因运动变化不足或过多而导致性能下降。
  • 训练轻量级在线分类器用于轨迹重新激活,相比简单阈值法使 AP50 提升 8.9 分,证明了学习决策机制的价值。
  • 离线版本的轨迹重新激活模型进一步将性能提升 1.6 AP50,表明访问未来帧可增强长期一致性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。