QUICK REVIEW

[论文解读] FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking

Peng Chu, Haibin Ling|arXiv (Cornell University)|Apr 10, 2019

Video Surveillance and Tracking Methods参考文献 55被引用 27

一句话总结

FAMNet 提出了一种端到端的深度学习框架，联合优化特征提取、亲和度估计和多维分配，用于在线多目标跟踪。通过使所有组件可微分，并使用真实轨迹作为监督进行端到端训练，该方法在 MOT2015、MOT2017、KITTI-Car 和 UA-DETRAC 上实现了最先进性能，MOTA 分数分别为 45.2%（MOT2015）、65.8%（MOT2017）、77.1%（KITTI-Car）和 19.8%（UA-DETRAC）。

ABSTRACT

Data association-based multiple object tracking (MOT) involves multiple separated modules processed or optimized differently, which results in complex method design and requires non-trivial tuning of parameters. In this paper, we present an end-to-end model, named FAMNet, where Feature extraction, Affinity estimation and Multi-dimensional assignment are refined in a single network. All layers in FAMNet are designed differentiable thus can be optimized jointly to learn the discriminative features and higher-order affinity model for robust MOT, which is supervised by the loss directly from the assignment ground truth. We also integrate single object tracking technique and a dedicated target management scheme into the FAMNet-based tracking system to further recover false negatives and inhibit noisy target candidates generated by the external detector. The proposed method is evaluated on a diverse set of benchmarks including MOT2015, MOT2017, KITTI-Car and UA-DETRAC, and achieves promising performance on all of them in comparison with state-of-the-arts.

研究动机与目标

为解决基于检测的跟踪中模块化、不可微分的数据关联流程的局限性，这些流程需要大量超参数调优，并且在训练与推理之间存在分布偏移问题。
将特征提取、亲和度估计和多维分配统一为一个可微分的深度神经网络，以联合学习任务特定先验知识。
通过引入更高阶的时间和运动上下文，提升在遮挡、快速运动和外观相似等挑战性场景下的鲁棒性。
通过整合单目标跟踪（SOT）预测和专用目标管理模块，减少误报和漏报，从而提升跟踪性能。

提出的方法

FAMNet 是一个统一的、端到端可微分架构，利用真实轨迹作为监督，联合优化特征表示、亲和度估计和多维分配（MDA）。
亲和度子网络融合多帧之间的外观和运动特征，计算更高阶的亲和度分数，提升判别能力，超越传统的成对帧级关联。
可微分的 MDA 子网络采用经过修改的幂迭代法进行秩-1 张量近似，并结合 ℓ1 归一化，使全局分配过程可反向传播。
一个专用的基于 CNN 的边界框估计器（CNN_BBE）用于优化检测质量，减少外部检测器产生的噪声候选框。
将单目标跟踪（SOT）预测与检测器输出融合，并通过 MDA 联合优化，以恢复漏检目标并抑制误报。
通过使用 ImageNet-ILSVRC15 预训练权重进行微调，提升模型泛化能力，并避免在有限的 MOT 数据集上过拟合。

实验结果

研究问题

RQ1与模块化、独立优化的流水线相比，端到端联合学习特征、亲和度和分配是否能提升在线多目标跟踪性能？
RQ2通过可微分 MDA 层引入更高阶的时间和运动上下文，如何增强在人群密集或快速运动场景下的鲁棒性？
RQ3整合 SOT 预测和专用目标管理模块在多大程度上能减少跟踪中的误报和漏报？
RQ4通过可微分 MDA 直接使用真实轨迹作为监督进行训练，是否比依赖启发式亲和度采样的传统方法具有更好的泛化能力？
RQ5统一的、可微分架构是否能在包括行人和车辆跟踪数据集在内的多样化基准上超越最先进方法？

主要发现

在 MOT2015 基准上，FAMNet 使用微调权重实现了 45.2% 的 MOTA，显著优于从零开始训练（44.1%）和去除 CNN_BBE 的消融实验（40.5%）。
在 KITTI-Car 上，FAMNet 实现了 77.1% 的 MOTA，超过之前最先进方法 R1TA（71.2%），并在在线设置下优于离线方法 NOMT（78.1%）。
在 UA-DETRAC 上，FAMNet 实现了 19.8% 的 MOTA，超过次佳方法 GOG（14.2%），甚至超越使用私有检测器的 IOU 跟踪器。
消融实验表明，移除 SOT 组件会使误报增加 300% 以上，ID 切换（IDS）增加 12，凸显其在恢复漏检目标中的关键作用。
引入 CNN_BBE 进行边界框优化可减少误报并提升跟踪稳定性，表现为移除该模块后误报下降约 20%。
从 ImageNet-ILSVRC15 预训练权重进行微调可提升泛化能力，并使 MOTA 相较于随机初始化训练提升超过 10%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。