QUICK REVIEW

[论文解读] Multiple Object Tracking by Flowing and Fusing

Jimuyang Zhang, Sanping Zhou|arXiv (Cornell University)|Jan 30, 2020

Video Surveillance and Tracking Methods参考文献 67被引用 29

一句话总结

本文提出Flow-Fuse-Tracker（FFT），一种用于多目标跟踪的端到端深度学习框架，通过两种新型模块联合学习目标级运动与关联：FlowTracker从像素级光流中推断无限目标运动，FuseTracker则融合FlowTracker和帧级目标检测器的预测结果。FFT在在线多目标跟踪任务中达到最先进性能，在MOT16和MOT17上分别取得56.5的MOTA，超越所有先前的在线与离线方法。

ABSTRACT

Most of Multiple Object Tracking (MOT) approaches compute individual target features for two subtasks: estimating target-wise motions and conducting pair-wise Re-Identification (Re-ID). Because of the indefinite number of targets among video frames, both subtasks are very difficult to scale up efficiently in end-to-end Deep Neural Networks (DNNs). In this paper, we design an end-to-end DNN tracking approach, Flow-Fuse-Tracker (FFT), that addresses the above issues with two efficient techniques: target flowing and target fusing. Specifically, in target flowing, a FlowTracker DNN module learns the indefinite number of target-wise motions jointly from pixel-level optical flows. In target fusing, a FuseTracker DNN module refines and fuses targets proposed by FlowTracker and frame-wise object detection, instead of trusting either of the two inaccurate sources of target proposal. Because FlowTracker can explore complex target-wise motion patterns and FuseTracker can refine and fuse targets from FlowTracker and detectors, our approach can achieve the state-of-the-art results on several MOT benchmarks. As an online MOT approach, FFT produced the top MOTA of 46.3 on the 2DMOT15, 56.5 on the MOT16, and 56.5 on the MOT17 tracking benchmarks, surpassing all the online and offline methods in existing publications.

研究动机与目标

为解决由于视频帧中目标数量不定而导致的端到端深度学习在多目标跟踪中的可扩展性与效率挑战。
通过在统一框架中联合学习运动与关联，消除对昂贵的成对Re-ID比对的依赖。
通过融合来自FlowTracker（基于运动）和目标检测器（基于检测）的预测结果，提升跟踪鲁棒性，降低对任一来源不准确性的依赖。
设计一种端到端、在线的多目标跟踪系统，在无需迭代或启发式关联步骤的情况下实现高精度。

提出的方法

FlowTracker使用深度神经网络（DNN）从像素级光流中联合估计目标级运动，实现在目标数量可变情况下的可扩展运动建模。
FuseTracker采用DNN对FlowTracker和帧级目标检测器的预测结果进行优化与融合，避免过度依赖任一预测源。
整个系统通过三种损失函数进行端到端训练：两个回归损失用于运动与预测优化，一个分类损失用于目标存在性判断。
该框架处理成对视频帧并直接输出目标关联结果，无需依赖独立的匈牙利算法匹配步骤。
推理阶段采用回溯机制，通过扩展时间上下文提升对遮挡或短暂出现目标的跟踪能力。
该架构模块化且通用，可与改进的光流网络及现代目标检测器集成。

实验结果

研究问题

RQ1能否在不依赖成对Re-ID的情况下，通过端到端深度学习框架联合学习运动估计与目标关联？
RQ2如何利用光流作为输入，高效地在目标数量不定的情况下实现运动计算的可扩展性？
RQ3融合基于运动与基于检测的预测结果，在多大程度上能提升跟踪的鲁棒性与准确性？
RQ4能否通过单一统一网络在无需启发式后处理的情况下，实现在线多目标跟踪的SOTA性能？

主要发现

FFT在MOT16和MOT17基准上均取得56.5的新SOTA在线MOTA，超越所有现有在线与离线方法。
在2DMOT15上，FFT取得46.3的MOTA，表明其在多样化数据集上具有强大泛化能力。
消融实验表明，移除FuseTracker会使MOTA下降6.4分，证明其在优化与融合预测结果中的关键作用。
移除FlowTracker导致MOTA下降0.7分，证实其在从光流中准确建模运动方面的贡献。
使用30帧回溯可使MOTA提升至56.5，IDF1提升至51.0，表明更长的时间上下文有助于提升对遮挡或噪声目标的跟踪性能。
在目标可见度较低及小目标尺寸下性能下降，当可见度超过0.8且目标高度超过150像素时，跟踪精度显著提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。