[论文解读] Quo Vadis: Is Trajectory Forecasting the Key Towards Long-Term Multi-Object Tracking?
论文认为通过局部3D BEV推理和多样化短时轨迹预测,可以显著提升长期多目标跟踪,在长期遮挡时减少关联的组合搜索。
Recent developments in monocular multi-object tracking have been very successful in tracking visible objects and bridging short occlusion gaps, mainly relying on data-driven appearance models. While we have significantly advanced short-term tracking performance, bridging longer occlusion gaps remains elusive: state-of-the-art object trackers only bridge less than 10% of occlusions longer than three seconds. We suggest that the missing key is reasoning about future trajectories over a longer time horizon. Intuitively, the longer the occlusion gap, the larger the search space for possible associations. In this paper, we show that even a small yet diverse set of trajectory predictions for moving agents will significantly reduce this search space and thus improve long-term tracking robustness. Our experiments suggest that the crucial components of our approach are reasoning in a bird's-eye view space and generating a small yet diverse set of forecasts while accounting for their localization uncertainty. This way, we can advance state-of-the-art trackers on the MOTChallenge dataset and significantly improve their long-term tracking performance. This paper's source code and experimental data are available at https://github.com/dendorferpatrick/QuoVadis.
研究动机与目标
- 激发并分析轨迹预测在连通单目MOT中跨越长时遮挡的作用。
- 研究通过学习的单应性实现的BEV定位如何使基于预测的跟踪变得有效。
- 确定哪些预测设计模式(随机性、社交互动、多模态性)最有利于长期跟踪。
- 在合成与真实MOT数据集上评估所提出的框架,并在MOT17/MOT20上展示改进。
提出的方法
- 使用从单目深度和地面平面分割推断的序列级数据驱动单应性,将图像空间的检测转换为BEV。
- 在BEV中对丢失轨迹进行预测,使用一个轨迹预测网络输出多个可信的未来轨迹(k样本)并处理不确定性。
- 通过双分配优化将预测与新检测进行匹配,结合BEV距离(L2、IoU)和外观相似性,并设定门控阈值。
- 限制预测生命周期并使用可见性约束和场景几何来剪枝不太可能的分支,避免长尾错误关联。
- 探索预测文献中的设计模式(随机性、社交互动、多模态性),以评估它们对跟踪性能的影响。
实验结果
研究问题
- RQ1在BEV中对未来轨迹的推理是否显著减小单目MOT中长期遮挡的搜索空间?
- RQ2与像素空间或基于GT的BEV相比,数据驱动的BEV单应性如何影响轨迹预测和长期跟踪性能?
- RQ3哪些预测设计模式(随机性、社交语境、模态性)在长期遮挡中取得最佳跟踪性能?
- RQ4基于预测的剪枝是否可以在MOTChallenge数据集(MOT17/MOT20)上提升最先进的MOT方法,同时不过度牺牲短期准确性?
主要发现
- 一小组多样化的BEV聚焦的轨迹预测显著减少长期遮挡的搜索空间,并提高长期跟踪鲁棒性。
- 通过单一学习的单应性实现的数据驱动BEV定位接近GT性能,在长期遮挡方面优于像素空间预测。
- 在少量样本下的多模态预测(MG-GAN)在BEV中可优于线性模型,减少长时间遮挡的ID损失。
- 将预测与外观和IoU感知的匹配策略结合,达到关联召回率与精度之间的最佳权衡。
- 该方法在静态MOT17/MOT20序列上对若干基线MOT模型持续提升HOTA、AssA和IDSW。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。