QUICK REVIEW

[论文解读] Exploit the Connectivity: Multi-Object Tracking with TrackletNet

Gaoang Wang, Yizhou Wang|arXiv (Cornell University)|Nov 18, 2018

Video Surveillance and Tracking Methods参考文献 31被引用 24

一句话总结

该论文提出了一种名为TrackletNet Tracker（TNT）的新颖多目标跟踪方法，将跟踪建模为图聚类问题，其中轨迹片段（tracklets）作为图的顶点，利用多尺度TrackletNet通过结合外观特征与时间特征来度量轨迹片段间的连通性。通过在轨迹片段生成中引入本质矩阵几何（epipolar geometry），并采用统一的基于CNN的相似性度量，TNT在MOT16和MOT17基准上取得了最先进性能，展现出对遮挡、相机运动以及外观特征噪声的强鲁棒性。

ABSTRACT

Multi-object tracking (MOT) is an important and practical task related to both surveillance systems and moving camera applications, such as autonomous driving and robotic vision. However, due to unreliable detection, occlusion and fast camera motion, tracked targets can be easily lost, which makes MOT very challenging. Most recent works treat tracking as a re-identification (Re-ID) task, but how to combine appearance and temporal features is still not well addressed. In this paper, we propose an innovative and effective tracking method called TrackletNet Tracker (TNT) that combines temporal and appearance information together as a unified framework. First, we define a graph model which treats each tracklet as a vertex. The tracklets are generated by appearance similarity with CNN features and intersection-over-union (IOU) with epipolar constraints to compensate camera movement between adjacent frames. Then, for every pair of two tracklets, the similarity is measured by our designed multi-scale TrackletNet. Afterwards, the tracklets are clustered into groups which represent individual object IDs. Our proposed TNT has the ability to handle most of the challenges in MOT, and achieve promising results on MOT16 and MOT17 benchmark datasets compared with other state-of-the-art methods.

研究动机与目标

解决在遮挡、检测噪声和快速相机运动条件下的多目标跟踪挑战。
通过在统一框架中融合外观特征与时间特征，提升跟踪性能。
通过将轨迹片段而非单个检测框作为图的顶点，降低计算复杂度并增强鲁棒性。
通过建模时间连续性，减少对外观特征噪声和过拟合的敏感性。

提出的方法

通过IOU和基于CNN的外观特征，在连续帧之间关联检测框以生成轨迹片段，并应用本质矩阵几何校正相机运动影响。
构建图模型，其中每个轨迹片段为一个顶点，边表示轨迹片段之间的连通性。
多尺度TrackletNet通过融合轨迹和外观特征，利用训练于时间连续性的CNN架构，度量轨迹片段间的相似性。
TrackletNet输出的连通性得分作为图中的边权重，实现将轨迹片段聚类为独立物体轨迹。
采用图分割方法将相同身份的轨迹片段分组，将跟踪问题转化为聚类问题。
该方法在MOT数据集上端到端训练，无需额外Re-ID数据，通过时间域卷积减少过拟合。

实验结果

研究问题

RQ1基于轨迹片段作为顶点的图跟踪框架，是否能在处理长期遮挡和检测噪声方面优于基于检测的方法？
RQ2在大范围相机运动下，本质矩阵几何在轨迹片段生成中的改进效果如何？
RQ3统一的基于CNN的相似性度量（TrackletNet）是否能在跟踪鲁棒性方面超越传统特征距离度量（如Bhattacharyya距离）？
RQ4建模时间连续性在多大程度上可降低对噪声或损坏外观特征的敏感性？

主要发现

TNT在MOT16和MOT17基准上均达到最先进性能，MOTA和IDF1得分均优于现有方法。
引入本质矩阵几何后，轨迹片段生成的漏检率（FNR）显著下降——在MOT17-13上降低了2.7%，证明对相机运动具有更强鲁棒性。
在MOT17-10上，该方法将错误发现率（FDR）降低至2.4%，在MOT17-13上为3.4%，表明轨迹片段关联具有高准确性。
在高斯噪声（σ = 0.2）条件下，TNT的IDF1保持在34.0，而基线方法降至20.6，证明其对外观特征污染具有更强鲁棒性。
定性结果表明，TNT能成功跟踪长时间遮挡的行人，包括在MOT17-08中长达38帧的完全遮挡。
模型在多样化场景中泛化能力出色，包括运动相机和密集行人交互场景，如MOT17-01和MOT17-06序列所示。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。