[论文解读] TransTrack: Multiple Object Tracking with Transformer
TransTrack 引入一个基于 Transformer 的联合检测与跟踪框架,使用两种查询来源——用于检测的学习对象查询和来自前帧的跟踪查询以进行传播——实现单步 MOT。它在 MOT17 和 MOT20 上无需单独的 Re-ID 模块或检测中的 NMS,就能达到具有竞争力的 MOTA。
In this work, we propose TransTrack, a simple but efficient scheme to solve the multiple object tracking problems. TransTrack leverages the transformer architecture, which is an attention-based query-key mechanism. It applies object features from the previous frame as a query of the current frame and introduces a set of learned object queries to enable detecting new-coming objects. It builds up a novel joint-detection-and-tracking paradigm by accomplishing object detection and object association in a single shot, simplifying complicated multi-step settings in tracking-by-detection methods. On MOT17 and MOT20 benchmark, TransTrack achieves 74.5\% and 64.5\% MOTA, respectively, competitive to the state-of-the-art methods. We expect TransTrack to provide a novel perspective for multiple object tracking. The code is available at: \url{https://github.com/PeizeSun/TransTrack}.
研究动机与目标
- 激发一种简单高效的 MOT 方法,在单阶段内统一检测与关联。
- 利用 Transformer 注意力在检测新目标的同时传播先前检测到的对象。
- 消除或减少检测中的多阶段流水线和诸如 NMS 的后处理。
- 在 MOT17 与 MOT20 基准测试上展示具竞争力的 MOT 性能。
- 提供关于 MOT 中查询输入与匹配策略设计选择的见解。
提出的方法
- 采用双分支解码器架构:一个解码器从学习的对象查询预测检测框,另一个解码器从来自前一帧对象的跟踪查询预测跟踪框。
- 在两帧连续图像融合特征上使用共享编码器作为两个解码器的骨干。
- 输出两组框(检测和跟踪),并使用基于 IoU 的匈牙利匹配来形成最终的跟踪集合。
- 使用集合损失(分类、L1 和广义 IoU)对匹配对进行训练,遵循 DETR 风格的损失。
- 将可变形 Transformer 作为默认架构,以融合多尺度特征并提高精度。
- 推理期间,通过在 K 帧内保留未匹配的跟踪框以增强对遮挡的鲁棒性,从而执行轨迹重生。
实验结果
研究问题
- RQ1基于 Transformer 的 MOT 模型能否在不使用单独 Re-ID 模块的情况下跨帧联合检测与关联对象?
- RQ2将来自前一帧的跟踪查询引入对物体关联和 MOT 的检测鲁棒性有何影响?
- RQ3使用双查询流(对象查询和跟踪查询)对 MOT 性能指标(如 MOTA 和 ID 的指标)有何影响?
- RQ4哪些架构选项(如可变形 Transformer)在保持合理速度的同时最大化 MOT 性能?
- RQ5在拥挤的 MOT 基准测试中,TransTrack 与 detector-plus-motion 或 detector-plus-Re-ID 基线相比如何?
主要发现
| 基准 | 方法 | 数据 | MOTA ↑ | IDF1 ↑ | MOTP ↑ | MT ↑ | ML ↓ | FP ↓ | FN ↓ | IDS ↓ |
|---|---|---|---|---|---|---|---|---|---|---|
| MOT17 | TransTrack (ours) | CH | 74.5 | 63.9 | 80.6 | 46.8 | 11.3 | 28323 | 112137 | 3663 |
| MOT20 | TransTrack (ours) | CH | 64.5 | 59.2 | 80.0 | 49.1 | 13.6 | 28566 | 151377 | 3565 |
- TransTrack 在 MOT17 上达到 74.5 MOTA,在 MOT20 上达到 64.5 MOTA,在私有检测器设置下,展现出具竞争力的性能。
- 同时使用对象查询和跟踪查询显著提升检测和跟踪性能,相较于单独使用任一者。
- 在所测试的架构中,使用可变形 Transformer 作为骨干得到最佳 MOTA (65.0),同時具備强定位(MOTP)和低 ID。
- 双解码器设计结合基于 IoU 的匈牙里匹配可以替代传统的 NMS,并在跨帧提供鲁棒的关联。
- 将 CrowdHuman 作为预训练数据再进行 MOT 微调在 MOT17 上显著提升性能(在 CrowdHuman 上的预训练将 MOTA 从 61.6 提升到 64.8)。
- 运动模型比较表明 TransTrack 的跟踪查询方法在 ID-切换鲁棒性方面可比甚至优于基于卡尔曼滤波的方法,尤其是在采用更少帧采样时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。