[论文解读] Tracking the Trackers: An Analysis of the State of the Art in Multiple Object Tracking
本文介绍 MOT15 和 MOT16,这是用于多目标跟踪的标准化基准,对 MOT15 的32个跟踪器和 MOT16 的16个跟踪器进行分析,并研究评估指标及性能预测。
Standardized benchmarks are crucial for the majority of computer vision applications. Although leaderboards and ranking tables should not be over-claimed, benchmarks often provide the most objective measure of performance and are therefore important guides for research. We present a benchmark for Multiple Object Tracking launched in the late 2014, with the goal of creating a framework for the standardized evaluation of multiple object tracking methods. This paper collects the two releases of the benchmark made so far, and provides an in-depth analysis of almost 50 state-of-the-art trackers that were tested on over 11000 frames. We show the current trends and weaknesses of multiple people tracking methods, and provide pointers of what researchers should be focusing on to push the field forward.
研究动机与目标
- 引入一个标准化基准,用于公平评估多目标跟踪方法(MOT15 和 MOT16)。
- 分析大量最先进跟踪器在 MOT15 和 MOT16 上的性能。
- 邀请人类评估者检查评估指标,以评估与感知质量的一致性。
- 指出当前跟踪器的主要弱点,并为未来研究提供指导。
提出的方法
- 使用严格的标注协议,组装 MOT15(22 个序列,10万+ 个边界框)和 MOT16(14 个序列,29万+ 个边界框),覆盖 12 个类别。
- 提供检测结果(MOT15 用 ACF,MOT16 用 DPM/现成方法),并要求跟踪器在这些检测上工作。
- 集中评估服务器,确保公平、一致的指标计算,防止对测试序列的过拟合。
- 评估 MOT15 上的 32 个跟踪器和 MOT16 上的 16 个(2017 年前发表的)。
- 通过将跟踪器的 FP/FN 与检测性能进行比较来进行错误分析,以了解错误来源。
- 尝试使用特征和简单的 SVM 预测器,预测在给定序列或片段上哪个跟踪器表现最好。
实验结果
研究问题
- RQ1当今最先进的多目标跟踪器在 MOT15 与 MOT16 上的优势与不足是什么?
- RQ2不同的亲和模型和外观线索如何影响跟踪性能?
- RQ3评估指标在多大程度上反映人类对跟踪质量的直观判断?
- RQ4是否可以通过逐序列或逐片段的预测来选出最佳跟踪器,形成“超级跟踪器”?
- RQ5标准化基准所提出的边界和潜在改进有哪些?
主要发现
| 方法 | MOTA | MOTP | FAF | MT | ML | FP | FN | IDw | Frag |
|---|---|---|---|---|---|---|---|---|---|
| NOMT [ 8 ] | 46.4 ± 9.9 | 76.6 | 1.6 | 18.3 | 41.4 | 9753 | 87565 | 359 (6.9) | 504 (9.7) |
| JMC [ 56 ] & 46.3 ± 9.0 | 75.7 | 1.1 | 15.5 | 39.7 | 6373 | 90914 | 657 (13.1) | 1114 (22.2) | |
| MDPNN16 [ 50 ] | 43.8 ± 7.3 | 75.5 | 0.6 | 12.4 | 40.7 | 3501 | 98193 | 723 (15.7) | 2036 (44.1) |
| oICF [ 28 ] | 43.2 ± 10.2 | 74.3 | 1.1 | 11.3 | 48.5 | 6651 | 96515 | 381 (8.1) | 1404 (29.8) |
| MHT_DAM [ 29 ] | 42.9 ± 8.9 | 76.6 | 1.0 | 13.6 | 46.9 | 5668 | 97919 | 499 (10.8) | 659 (14.2) |
| LINF1 [ 18 ] | 41.0 ± 9.5 | 74.8 | 1.3 | 11.6 | 51.3 | 7896 | 99224 | 430 (9.4) | 963 (21.1) |
| EAMTT_pub [ 51 ] | 38.8 ± 8.5 | 75.1 | 1.4 | 7.9 | 49.1 | 8114 | 102452 | 965 (22.0) | 1657 (37.8) |
| OVBT [ 5 ] | 38.4 ± 8.8 | 75.4 | 1.9 | 7.5 | 47.3 | 11517 | 99463 | 1321 (29.1) | 2140 (47.1) |
| LTTSC-CRF [ 33 ] | 37.6 ± 9.9 | 75.9 | 2.0 | 9.6 | 55.2 | 11969 | 101343 | 481 (10.8) | 1012 (22.8) |
| LP2D [ 36 ] | 35.7 ± 10.1 | 75.8 | 0.9 | 8.7 | 50.7 | 5084 | 111163 | 915 (23.4) | 1264 (32.4) |
| TBD [ 21 ] | 33.7 ± 9.2 | 76.5 | 1.0 | 7.2 | 54.2 | 5804 | 112587 | 2418 (63.2) | 2252 (58.9) |
| CEM [ 41 ] | 33.2 ± 7.9 | 75.8 | 1.2 | 7.8 | 54.4 | 6837 | 114322 | 642 (17.2) | 731 (19.6) |
| DP_NMS [ 46 ] | 32.2 ± 9.8 | 76.4 | 0.2 | 5.4 | 62.1 | 1123 | 121579 | 972 (29.2) | 944 (28.3) |
| GMPHD_HDA [ 55 ] | 30.5 ± 6.9 | 75.4 | 0.9 | 4.6 | 59.7 | 5169 | 120970 | 539 (16.0) | 731 (21.7) |
| SMOT [ 11 ] | 29.7 ± 7.3 | 75.2 | 2.9 | 5.3 | 47.7 | 17426 | 107552 | 3108 (75.8) | 4483 (109.3) |
| JPDA_m [ 48 ] | 26.2 ± 6.1 | 76.3 | 0.6 | 4.1 | 67.5 | 3689 | 130549 | 365 (12.9) | 638 (22.5) |
- 顶级跟踪器(如 NOMT、JMC、MDPNN16、oICF、MHT_DAM、LINF1)在 MOTA 上超过 40%,Mostly Tracked >10%。
- 性能在很大程度上由亲和/外观模型驱动,深度学习方法给出强结果。
- 大多数方法能减少来自检测器的假阳性,但常未能减少假阴性,导致 MOTA 面临 FN 主导的问题。
- 跨视频相关性高:方法在序列或片段之间倾向于表现相似。
- MOTA 仍是最具代表性的指标,与人类视觉评估最一致,尽管 MT 和 Recall 也与感知质量相关。
- 尝试通过按片段选择跟踪器来创建“超级跟踪器”在有 oracle 指导下带来适度增益;在 MOT15 上为 5.5 点,在 MOT16 上为 2.9 点;实际预测增益更小。
- 人类评估者基本同意 MOTA 为衡量整体跟踪器质量的最佳单一指标。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。