QUICK REVIEW

[论文解读] TransTrack: Multiple Object Tracking with Transformer

Peize Sun, Jinkun Cao|arXiv (Cornell University)|Dec 31, 2020

Video Surveillance and Tracking Methods参考文献 62被引用 359

一句话总结

TransTrack 引入一个基于 Transformer 的联合检测与跟踪框架，使用两种查询来源——用于检测的学习对象查询和来自前帧的跟踪查询以进行传播——实现单步 MOT。它在 MOT17 和 MOT20 上无需单独的 Re-ID 模块或检测中的 NMS，就能达到具有竞争力的 MOTA。

ABSTRACT

In this work, we propose TransTrack, a simple but efficient scheme to solve the multiple object tracking problems. TransTrack leverages the transformer architecture, which is an attention-based query-key mechanism. It applies object features from the previous frame as a query of the current frame and introduces a set of learned object queries to enable detecting new-coming objects. It builds up a novel joint-detection-and-tracking paradigm by accomplishing object detection and object association in a single shot, simplifying complicated multi-step settings in tracking-by-detection methods. On MOT17 and MOT20 benchmark, TransTrack achieves 74.5\% and 64.5\% MOTA, respectively, competitive to the state-of-the-art methods. We expect TransTrack to provide a novel perspective for multiple object tracking. The code is available at: \url{https://github.com/PeizeSun/TransTrack}.

研究动机与目标

激发一种简单高效的 MOT 方法，在单阶段内统一检测与关联。
利用 Transformer 注意力在检测新目标的同时传播先前检测到的对象。
消除或减少检测中的多阶段流水线和诸如 NMS 的后处理。
在 MOT17 与 MOT20 基准测试上展示具竞争力的 MOT 性能。
提供关于 MOT 中查询输入与匹配策略设计选择的见解。

提出的方法

采用双分支解码器架构：一个解码器从学习的对象查询预测检测框，另一个解码器从来自前一帧对象的跟踪查询预测跟踪框。
在两帧连续图像融合特征上使用共享编码器作为两个解码器的骨干。
输出两组框（检测和跟踪），并使用基于 IoU 的匈牙利匹配来形成最终的跟踪集合。
使用集合损失（分类、L1 和广义 IoU）对匹配对进行训练，遵循 DETR 风格的损失。
将可变形 Transformer 作为默认架构，以融合多尺度特征并提高精度。
推理期间，通过在 K 帧内保留未匹配的跟踪框以增强对遮挡的鲁棒性，从而执行轨迹重生。

实验结果

研究问题

RQ1基于 Transformer 的 MOT 模型能否在不使用单独 Re-ID 模块的情况下跨帧联合检测与关联对象？
RQ2将来自前一帧的跟踪查询引入对物体关联和 MOT 的检测鲁棒性有何影响？
RQ3使用双查询流（对象查询和跟踪查询）对 MOT 性能指标（如 MOTA 和 ID 的指标）有何影响？
RQ4哪些架构选项（如可变形 Transformer）在保持合理速度的同时最大化 MOT 性能？
RQ5在拥挤的 MOT 基准测试中，TransTrack 与 detector-plus-motion 或 detector-plus-Re-ID 基线相比如何？

主要发现

基准	方法	数据	MOTA ↑	IDF1 ↑	MOTP ↑	MT ↑	ML ↓	FP ↓	FN ↓	IDS ↓
MOT17	TransTrack (ours)	CH	74.5	63.9	80.6	46.8	11.3	28323	112137	3663
MOT20	TransTrack (ours)	CH	64.5	59.2	80.0	49.1	13.6	28566	151377	3565

TransTrack 在 MOT17 上达到 74.5 MOTA，在 MOT20 上达到 64.5 MOTA，在私有检测器设置下，展现出具竞争力的性能。
同时使用对象查询和跟踪查询显著提升检测和跟踪性能，相较于单独使用任一者。
在所测试的架构中，使用可变形 Transformer 作为骨干得到最佳 MOTA (65.0)，同時具備强定位（MOTP）和低 ID。
双解码器设计结合基于 IoU 的匈牙里匹配可以替代传统的 NMS，并在跨帧提供鲁棒的关联。
将 CrowdHuman 作为预训练数据再进行 MOT 微调在 MOT17 上显著提升性能（在 CrowdHuman 上的预训练将 MOTA 从 61.6 提升到 64.8）。
运动模型比较表明 TransTrack 的跟踪查询方法在 ID-切换鲁棒性方面可比甚至优于基于卡尔曼滤波的方法，尤其是在采用更少帧采样时。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。