QUICK REVIEW

[论文解读] Tracklet Association Tracker: An End-to-End Learning-based Association Approach for Multi-Object Tracking

Han Shen, Lichao Huang|arXiv (Cornell University)|Aug 5, 2018

Video Surveillance and Tracking Methods参考文献 28被引用 38

一句话总结

本文提出Tracklet Association Tracker（TAT），一种基于端到端学习的多目标跟踪框架，通过使用tracklet的双层优化公式统一了特征学习与数据关联。借助深度度量学习、tracklet生成以及近似梯度训练方法，TAT在MOT2016和MOT2017基准上实现了最先进性能，且训练速度比之前方法快20倍以上。

ABSTRACT

Traditional multiple object tracking methods divide the task into two parts: affinity learning and data association. The separation of the task requires to define a hand-crafted training goal in affinity learning stage and a hand-crafted cost function of data association stage, which prevents the tracking goals from learning directly from the feature. In this paper, we present a new multiple object tracking (MOT) framework with data-driven association method, named as Tracklet Association Tracker (TAT). The framework aims at gluing feature learning and data association into a unity by a bi-level optimization formulation so that the association results can be directly learned from features. To boost the performance, we also adopt the popular hierarchical association and perform the necessary alignment and selection of raw detection responses. Our model trains over 20X faster than a similar approach, and achieves the state-of-the-art performance on both MOT2016 and MOT2017 benchmarks.

研究动机与目标

解决传统MOT方法将亲和力学习与数据关联分离所带来的局限，这些方法依赖手工设计的目标函数和代价函数。
将特征学习与数据关联统一为一个单一的端到端可训练框架，实现对跟踪指标（如MOTA）的直接优化。
通过tracklet构建引入运动依赖性，提升长期跟踪的鲁棒性。
通过在双层优化框架中引入近似梯度方法，加速训练并提高收敛稳定性。
证明现代检测器和传统检测器均可从提议对齐和异常值去除中获益。

提出的方法

提出一种双层优化框架，通过端到端反向传播联合优化特征嵌入与关联代价。
采用三元组网络进行深度度量学习，从检测响应中提取外观嵌入。
基于外观和空间特征，使用多层感知机（MLP）从相邻检测中生成tracklet。
提出一种新颖的近似梯度方法，以稳定训练过程并实现收敛，即使在代价参数无界的情况下亦可。
采用分层关联策略，结合提议对齐与选择，以在生成tracklet前提升检测质量。
利用网络流实现全局优化，其中可学习的单变量和成对代价由深度特征推导得出。

实验结果

研究问题

RQ1与手工设计的代价函数相比，端到端学习关联代价是否能提升多目标跟踪性能？
RQ2在双层优化框架中引入tracklet如何增强长期跟踪的鲁棒性，特别是在遮挡情况下的表现？
RQ3对齐与异常值去除在不同检测模型上的性能提升程度如何？
RQ4在双层优化中使用近似梯度是否能带来比精确方法更快且更稳定的训练？
RQ5学习到的特征与联合优化的结合是否能带来优于传统两阶段方法的MOTA表现？

主要发现

TAT在MOT2016上达到67.4的SOTA MOTA，在MOT2017上达到59.7，优于先前方法。
由于采用了近似梯度方法，该模型训练速度比基于Schulter等人[29]的类似端到端方法快20倍以上。
当窗口大小超过30帧时，[NETFLOW]和TAT的性能显著下降，但[E2EP]因具有稳定的手工设计单变量代价而保持鲁棒。
通过按长度加权tracklet（TL），MOTA从35.9提升至36.9，证实较长tracklet对跟踪精度贡献更大。
结合TL与TG加权可获得最佳性能（MOTA 37.0），将IDS从69降至75，FP从378降至388。
消融实验表明，无论现代还是旧式检测器，均能从提议对齐与选择中获益，尤其在减少误报方面效果显著。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。