[论文解读] DEFT: Detection Embeddings for Tracking
DEFT 在检测器骨干中共同学习检测嵌入,以进行在线多对象跟踪,使用基于外观的匹配头和运动模型在跨帧跟踪中对对象进行鲁棒跟踪,特别是在遮挡和大跨帧位移下;它在二维基准测试上取得强结果,并在 nuScenes 的单目三维跟踪上显著提升。
Most modern multiple object tracking (MOT) systems follow the tracking-by-detection paradigm, consisting of a detector followed by a method for associating detections into tracks. There is a long history in tracking of combining motion and appearance features to provide robustness to occlusions and other challenges, but typically this comes with the trade-off of a more complex and slower implementation. Recent successes on popular 2D tracking benchmarks indicate that top-scores can be achieved using a state-of-the-art detector and relatively simple associations relying on single-frame spatial offsets -- notably outperforming contemporary methods that leverage learned appearance features to help re-identify lost tracks. In this paper, we propose an efficient joint detection and tracking model named DEFT, or "Detection Embeddings for Tracking." Our approach relies on an appearance-based object matching network jointly-learned with an underlying object detection network. An LSTM is also added to capture motion constraints. DEFT has comparable accuracy and speed to the top methods on 2D online tracking leaderboards while having significant advantages in robustness when applied to more challenging tracking data. DEFT raises the bar on the nuScenes monocular 3D tracking challenge, more than doubling the performance of the previous top method. Code is publicly available.
研究动机与目标
- 以更简单但鲁棒的关联机制推动跟踪-检测方法。
- 开发一个联合的检测与跟踪网络,复用检测器特征以进行基于嵌入的匹配。
- 在关联过程中结合运动模型以约束对象轨迹的合理性。
- 在二维与三维跟踪基准上评估 DEFT,以展示在遮挡和大跨帧位移下的鲁棒性。
提出的方法
- 从每个检测到的对象的多个检测器骨干特征图中提取外观嵌入。
- 训练一个共享的检测与匹配网络,使嵌入同时优化检测和跨帧关联。
- 使用一个匹配头通过一个1x1卷积网络计算当前检测与轨迹嵌入之间的成对相似性。
- 在最近的若干帧中维护轨道嵌入的记忆,以实现长程关联和遮挡处理。
- 应用基于 LSTM 的运动预测模块来约束关联的合理性并过滤不太可能的匹配。
- 使用匈牙利算法进行在线数据关联,并结合非匹配得分来处理新出现或离开的对象。
实验结果
研究问题
- RQ1能否在在线 MOT 中有效复用检测器骨干的嵌入来进行基于外观的数据关联?
- RQ2与分阶段相比,联合的检测与跟踪训练是否同时提升检测质量和跟踪鲁棒性?
- RQ3在遮挡和大跨帧位移等挑战场景中,学习到的运动模型(LSTM)如何与基于嵌入的匹配相互作用?
主要发现
- DEFT 的联合训练在 MOT 与 KITTI 基准测试中实现了有竞争力的二维跟踪性能。
- DEFT 显著提高对遮挡和大跨帧位移的鲁棒性,在具有挑战性的数据(尤其是 nuScenes)上超越了先前方法。
- 学习到的检测嵌入为跨帧身份关联提供了强信号,同时保持与更简单跟踪器相当的效率。
- 基于 LSTM 的运动模型提供了额外收益,尤其是在更难的序列中,在此情境下甚至超越了卡尔曼滤波等方法。
- 在各项基准测试中,DEFT 展示了在检测与匹配之间共享特征可以超过将检测与关联分开的方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。