QUICK REVIEW

[论文解读] How To Train Your Deep Multi-Object Tracker

Yihong Xu, Aljoša Ošep|arXiv (Cornell University)|Jun 15, 2019

Video Surveillance and Tracking Methods参考文献 69被引用 24

一句话总结

该论文通过引入MOTA和MOTP的可微分代理，提出了一种用于端到端训练深度多目标追踪器的可微分框架，该框架基于深度匈牙利网络（DHN）近似匈牙利匹配算法。该方法通过直接优化标准追踪评估指标，在MOTChallenge基准上实现了最先进性能。

ABSTRACT

The recent trend in vision-based multi-object tracking (MOT) is heading towards leveraging the representational power of deep learning to jointly learn to detect and track objects. However, existing methods train only certain sub-modules using loss functions that often do not correlate with established tracking evaluation measures such as Multi-Object Tracking Accuracy (MOTA) and Precision (MOTP). As these measures are not differentiable, the choice of appropriate loss functions for end-to-end training of multi-object tracking methods is still an open research problem. In this paper, we bridge this gap by proposing a differentiable proxy of MOTA and MOTP, which we combine in a loss function suitable for end-to-end training of deep multi-object trackers. As a key ingredient, we propose a Deep Hungarian Net (DHN) module that approximates the Hungarian matching algorithm. DHN allows estimating the correspondence between object tracks and ground truth objects to compute differentiable proxies of MOTA and MOTP, which are in turn used to optimize deep trackers directly. We experimentally demonstrate that the proposed differentiable framework improves the performance of existing multi-object trackers, and we establish a new state of the art on the MOTChallenge benchmark. Our code is publicly available from https://github.com/yihongXU/deepMOT.

研究动机与目标

解决由于标准评估指标（如MOTA和MOTP）不可微分，导致深度多目标追踪器难以实现端到端训练的问题。
克服通过不可微分的匈牙利算法进行梯度反向传播的挑战，该算法在最优数据关联中至关重要。
开发一种可微分模块，近似匈牙利匹配过程，以实现基于追踪性能指标的梯度优化，从而直接提升追踪器权重。
证明使用所提出的损失函数进行训练可提升追踪器在标准基准上的性能，特别是在减少误报和身份切换方面。

提出的方法

通过深度匈牙利网络（DHN）提出匈牙利算法的可微分近似，DHN是一种双向RNN，能从预测与真实框之间的距离矩阵计算出软分配矩阵。
利用软分配矩阵和距离矩阵，构建MOTA和MOTP的可微分代理，从而实现从追踪性能指标中计算梯度。
将DeepMOT损失（结合可微分的MOTA和MOTP代理）集成到现有追踪器（如Tracktor、SiamRPN和GOTURN）的训练流程中。
使用反向传播进行端到端训练，其中来自DeepMOT损失的梯度用于更新网络权重，以提升追踪精度并减少误差。
在DHN中使用基于序列的GRU变体（seq_gru），以提升在不同矩阵尺寸下的匹配准确性和泛化能力。
通过梯度可视化和关于分配准确率与指标相关性的消融研究，验证框架的可微分性与有效性。

实验结果

研究问题

RQ1能否使多目标追踪的标准评估指标MOTA和MOTP实现可微分，从而实现深度追踪器的端到端训练？
RQ2如何以可微分方式近似不可微分的匈牙利算法，以实现数据关联过程中的梯度流动？
RQ3基于MOTA和MOTP的损失函数是否能显著提升标准基准上的追踪性能？
RQ4所提出的深度匈牙利网络（DHN）与其它可微分匹配模块相比，在分配准确率和泛化能力方面表现如何？
RQ5所提出的训练框架在真实追踪场景中，能在多大程度上减少误报和身份切换？

主要发现

所提出的DeepMOT框架在MOT15基准上实现了新的SOTA MOTA分数44.1，性能与原始Tracktor相当，但训练过程与评估指标对齐更优。
DeepMOT-SiamRPN相较于基线SiamRPN，MOTA提升+2.3%，MOTP提升+0.7%，IDF1提升+2.0%，同时误报减少2,416例，身份切换减少143次。
采用seq_gru变体的深度匈牙利网络（DHN）在分配准确率上达到92.71%（行方向）和92.36%（列方向），平均绝对误差（MA）分别为13.17%和12.21%，逐对误差（SA）分别为9.70%和3.69%，表明其对最优分配的近似能力极强。
梯度可视化结果表明，DeepMOT损失的负梯度能引导预测边界框向其关联的真实框移动，验证了该损失在优化追踪精度方面的有效性。
在MOT15数据集上，DeepMOT-Tracktor保持了具有竞争力的性能，同时MOTP提升+0.3%，误报减少392例，相较于基线Tracktor。
该框架在不同矩阵尺寸下具有良好的泛化能力，尽管随着矩阵尺寸增大，分配准确率略有下降，且在极小矩阵（≤6×6）上性能下降，可能源于训练不平衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。