[论文解读] Deep Affinity Network for Multiple Object Tracking
本文提出深度亲和网络(DAN),一种端到端的深度学习框架,联合学习对象外观和跨帧亲和力,用于在线多目标跟踪。通过建模层次特征并全面排列非连续帧中的对象对,DAN 在 MOT15、MOT17 和 UA-DETRAC 上实现了最先进性能,在 MOTA 和 IDF1 等多个指标上优于现有方法,同时保持 6.3 FPS 的实时推理速度。
Multiple Object Tracking (MOT) plays an important role in solving many fundamental problems in video analysis in computer vision. Most MOT methods employ two steps: Object Detection and Data Association. The first step detects objects of interest in every frame of a video, and the second establishes correspondence between the detected objects in different frames to obtain their tracks. Object detection has made tremendous progress in the last few years due to deep learning. However, data association for tracking still relies on hand crafted constraints such as appearance, motion, spatial proximity, grouping etc. to compute affinities between the objects in different frames. In this paper, we harness the power of deep learning for data association in tracking by jointly modelling object appearances and their affinities between different frames in an end-to-end fashion. The proposed Deep Affinity Network (DAN) learns compact; yet comprehensive features of pre-detected objects at several levels of abstraction, and performs exhaustive pairing permutations of those features in any two frames to infer object affinities. DAN also accounts for multiple objects appearing and disappearing between video frames. We exploit the resulting efficient affinity computations to associate objects in the current frame deep into the previous frames for reliable on-line tracking. Our technique is evaluated on popular multiple object tracking challenges MOT15, MOT17 and UA-DETRAC. Comprehensive benchmarking under twelve evaluation metrics demonstrates that our approach is among the best performing techniques on the leader board for these challenges. The open source implementation of our work is available at https://github.com/shijieS/SST.git.
研究动机与目标
- 解决多目标跟踪中手工设计特征在数据关联方面的局限性。
- 实现在非连续视频帧之间基于深度学习的亲和力计算。
- 以端到端可训练的方式联合建模对象外观和亲和力。
- 通过亲和力估计模块中的时间扩展,考虑帧间对象的进入和退出。
- 在提升准确率的同时,实现鲁棒且实时的在线跟踪,优于现有方法。
提出的方法
- 该网络采用受 VGG 启发的双流、权重共享卷积架构,从两个视频帧中预检测到的对象提取层次特征。
- 1×1 卷积层将来自九个选定层的特征压缩为 520 维向量,实现紧凑表示。
- 对两个帧的特征向量进行全面排列,编码为 3D 张量 Ψ_{t−n,t} ∈ ℝ^{1040×Nₘ×Nₘ},以建模所有可能的对象配对。
- 一个五层卷积网络将张量 Ψ 映射为矩阵 M ∈ ℝ^{Nₘ×Nₘ},表示帧对中对象之间的成对亲和力。
- 为处理对象外观变化和消失,网络通过增加一行一列扩展 M,形成 M₁ 和 M₂,以支持前向和后向时间推理。
- 对 M₁ 和 M₂ 进行行和列方向的 Softmax 操作,生成亲和力矩阵 A₁、A₂ 及其裁剪版本 Â₁、Â₂,用于新型损失函数以监督训练。
实验结果
研究问题
- RQ1能否有效利用深度学习替代多目标跟踪中数据关联的手工设计特征?
- RQ2如何在考虑对象进入和退出的前提下,使深度网络建模非连续帧之间对象的亲和力?
- RQ3层次特征抽象和特征压缩对跟踪准确率和效率有何影响?
- RQ4端到端可训练的亲和力网络能否优于传统结合运动和外观特征的复合模型?
- RQ5所提出的架构在实时跟踪场景中,随着跟踪对象数量增加,其扩展性如何?
主要发现
- 所提出的深度亲和网络(DAN)在所有三个基准测试中均取得了最高的多目标跟踪准确率(MOTA):MOT15、MOT17 和 UA-DETRAC。
- 在 MOT17 上,DAN 在 120 个周期时达到 53.5% 的 MOTA 和 62.3% 的 IDF1,优于所有变体和基线方法。
- 采用渐进式特征压缩的 DAN 变体(DAN-Replace)在 120 个周期时损失为 0.111,而使用改进损失函数的 DAN-Mean 达到 60.7% 的 IDF1。
- 以端到端方式训练的 DAN 模型在 120 个周期时训练损失降至 0.043,表明其收敛速度优于其他变体。
- 系统平均推理速度达到 6.3 帧每秒,当对象数量增加四倍(从 20 增至 80)时,运行时间仅增加 1.2 倍。
- 消融研究证实,特征压缩和扩展子网络至关重要:DAN-Curtail(无扩展)的 MOTA 降至 45.2%,而 DAN-Remove(无压缩)性能较差,MOTA 为 51.7%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。