Skip to main content
QUICK REVIEW

[论文解读] Near-Online Multi-target Tracking with Aggregated Local Flow Descriptor

Wongun Choi|arXiv (Cornell University)|Apr 9, 2015
Video Surveillance and Tracking Methods参考文献 22被引用 24
一句话总结

本文提出一种基于新型聚合局部光流描述符(ALFD)的近在线多目标跟踪(NOMT)框架,通过聚合兴趣点轨迹建模检测间的长期相对运动模式,提升数据关联性能。ALFD能够在远距离帧间实现鲁棒的相似性度量,NOMT在KITTI和MOT基准上实现了SOTA级别的MOTA分数——较之前方法高出超过10%,同时保持实时性能(约10 FPS)。

ABSTRACT

In this paper, we focus on the two key aspects of multiple target tracking problem: 1) designing an accurate affinity measure to associate detections and 2) implementing an efficient and accurate (near) online multiple target tracking algorithm. As the first contribution, we introduce a novel Aggregated Local Flow Descriptor (ALFD) that encodes the relative motion pattern between a pair of temporally distant detections using long term interest point trajectories (IPTs). Leveraging on the IPTs, the ALFD provides a robust affinity measure for estimating the likelihood of matching detections regardless of the application scenarios. As another contribution, we present a Near-Online Multi-target Tracking (NOMT) algorithm. The tracking problem is formulated as a data-association between targets and detections in a temporal window, that is performed repeatedly at every frame. While being efficient, NOMT achieves robustness via integrating multiple cues including ALFD metric, target dynamics, appearance similarity, and long term trajectory regularization into the model. Our ablative analysis verifies the superiority of the ALFD metric over the other conventional affinity metrics. We run a comprehensive experimental evaluation on two challenging tracking datasets, KITTI and MOT datasets. The NOMT method combined with ALFD metric achieves the best accuracy in both datasets with significant margins (about 10% higher MOTA) over the state-of-the-arts.

研究动机与目标

  • 解决在拥挤或复杂场景中多目标跟踪的准确数据关联挑战,尤其当传统度量方法失效时。
  • 开发一种鲁棒且通用的相似性度量方法,即使在运动模糊或遮挡情况下,也能可靠地关联长时间跨度内的检测结果。
  • 设计一种高效且准确的跟踪系统,结合全局优化优势与在线因果性,实现实时部署。
  • 将外观、运动以及长期轨迹正则化等多种线索整合到统一的数据关联框架中,提升跟踪稳定性。
  • 通过在时间窗口内利用未来观测实现关联错误的纠正,提升身份一致性。

提出的方法

  • 提出聚合局部光流描述符(ALFD),通过在帧间聚合长期兴趣点轨迹(IPTs)来编码两个检测之间的相对运动。
  • 利用IPTs捕捉检测框之间的稳定运动模式,即使单个轨迹存在噪声或不准确。
  • 将NOMT算法建模为大小为τ的滑动时间窗口内的全局数据关联问题,每帧求解以保持因果性并支持错误纠正。
  • 在条件随机场(CRF)推理框架中,将ALFD与外观相似性(颜色直方图)、目标动力学及长期轨迹正则化相结合。
  • 基于ALFD驱动的假设生成候选轨迹段,并通过CRF推理优化全局关联,以最小化不一致性和碎片化。
  • 利用多核CPU的并行计算实现实时性能(约10 FPS),其中光流计算是主要计算瓶颈。

实验结果

研究问题

  • RQ1基于运动的相似性度量若能利用长期轨迹模式,是否能超越传统基于空间和外观的度量方法?
  • RQ2具有滑动时间窗口的近在线跟踪框架在保持实时性能的前提下,能在多大程度上纠正过去的关联错误?
  • RQ3在复杂场景中,整合外观、运动和长期轨迹等多种线索,如何提升跟踪的鲁棒性与准确性?
  • RQ4所提出的ALFD描述符是否能在包括遮挡、快速相机运动或外观相似目标等多样化跟踪场景中实现良好泛化?
  • RQ5在近在线跟踪系统中,准确率与延迟之间存在何种权衡?是否能在不牺牲跟踪质量的前提下实现实时性能?

主要发现

  • 消融实验验证表明,ALFD度量显著优于传统相似性度量,如边界框重叠和外观相似性。
  • 在KITTI数据集上,采用ALFD的NOMT实现的MOTA分数比SOTA方法高出约10%,在自动驾驶场景中表现强劲。
  • 在MOT Challenge基准上,NOMT以超过14%的显著优势取得最高MOTA分数,同时有效减少身份切换和碎片化。
  • 在2.5GHz 16核CPU上,系统实现约10 FPS的实时性能,其中IPTs的光流计算为主要计算瓶颈。
  • 延迟分析显示,在KITTI上84.7%的检测在0.59秒内完成关联,在MOT上为77.6%,证实了算法的近在线特性。
  • 定性结果表明,NOMT即使在遮挡和快速相机运动下,也能生成稳定、一致的长期轨迹与身份。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。