Skip to main content
QUICK REVIEW

[论文解读] TransTrack: Multiple Object Tracking with Transformer

Peize Sun, Jinkun Cao|arXiv (Cornell University)|Dec 31, 2020
Video Surveillance and Tracking Methods参考文献 62被引用 359
一句话总结

TransTrack 引入一个基于 Transformer 的联合检测与跟踪框架,使用两种查询来源——用于检测的学习对象查询和来自前帧的跟踪查询以进行传播——实现单步 MOT。它在 MOT17 和 MOT20 上无需单独的 Re-ID 模块或检测中的 NMS,就能达到具有竞争力的 MOTA。

ABSTRACT

In this work, we propose TransTrack, a simple but efficient scheme to solve the multiple object tracking problems. TransTrack leverages the transformer architecture, which is an attention-based query-key mechanism. It applies object features from the previous frame as a query of the current frame and introduces a set of learned object queries to enable detecting new-coming objects. It builds up a novel joint-detection-and-tracking paradigm by accomplishing object detection and object association in a single shot, simplifying complicated multi-step settings in tracking-by-detection methods. On MOT17 and MOT20 benchmark, TransTrack achieves 74.5\% and 64.5\% MOTA, respectively, competitive to the state-of-the-art methods. We expect TransTrack to provide a novel perspective for multiple object tracking. The code is available at: \url{https://github.com/PeizeSun/TransTrack}.

研究动机与目标

  • 激发一种简单高效的 MOT 方法,在单阶段内统一检测与关联。
  • 利用 Transformer 注意力在检测新目标的同时传播先前检测到的对象。
  • 消除或减少检测中的多阶段流水线和诸如 NMS 的后处理。
  • 在 MOT17 与 MOT20 基准测试上展示具竞争力的 MOT 性能。
  • 提供关于 MOT 中查询输入与匹配策略设计选择的见解。

提出的方法

  • 采用双分支解码器架构:一个解码器从学习的对象查询预测检测框,另一个解码器从来自前一帧对象的跟踪查询预测跟踪框。
  • 在两帧连续图像融合特征上使用共享编码器作为两个解码器的骨干。
  • 输出两组框(检测和跟踪),并使用基于 IoU 的匈牙利匹配来形成最终的跟踪集合。
  • 使用集合损失(分类、L1 和广义 IoU)对匹配对进行训练,遵循 DETR 风格的损失。
  • 将可变形 Transformer 作为默认架构,以融合多尺度特征并提高精度。
  • 推理期间,通过在 K 帧内保留未匹配的跟踪框以增强对遮挡的鲁棒性,从而执行轨迹重生。

实验结果

研究问题

  • RQ1基于 Transformer 的 MOT 模型能否在不使用单独 Re-ID 模块的情况下跨帧联合检测与关联对象?
  • RQ2将来自前一帧的跟踪查询引入对物体关联和 MOT 的检测鲁棒性有何影响?
  • RQ3使用双查询流(对象查询和跟踪查询)对 MOT 性能指标(如 MOTA 和 ID 的指标)有何影响?
  • RQ4哪些架构选项(如可变形 Transformer)在保持合理速度的同时最大化 MOT 性能?
  • RQ5在拥挤的 MOT 基准测试中,TransTrack 与 detector-plus-motion 或 detector-plus-Re-ID 基线相比如何?

主要发现

基准方法数据MOTA ↑IDF1 ↑MOTP ↑MT ↑ML ↓FP ↓FN ↓IDS ↓
MOT17TransTrack (ours)CH74.563.980.646.811.3283231121373663
MOT20TransTrack (ours)CH64.559.280.049.113.6285661513773565
  • TransTrack 在 MOT17 上达到 74.5 MOTA,在 MOT20 上达到 64.5 MOTA,在私有检测器设置下,展现出具竞争力的性能。
  • 同时使用对象查询和跟踪查询显著提升检测和跟踪性能,相较于单独使用任一者。
  • 在所测试的架构中,使用可变形 Transformer 作为骨干得到最佳 MOTA (65.0),同時具備强定位(MOTP)和低 ID。
  • 双解码器设计结合基于 IoU 的匈牙里匹配可以替代传统的 NMS,并在跨帧提供鲁棒的关联。
  • 将 CrowdHuman 作为预训练数据再进行 MOT 微调在 MOT17 上显著提升性能(在 CrowdHuman 上的预训练将 MOTA 从 61.6 提升到 64.8)。
  • 运动模型比较表明 TransTrack 的跟踪查询方法在 ID-切换鲁棒性方面可比甚至优于基于卡尔曼滤波的方法,尤其是在采用更少帧采样时。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。