Skip to main content
QUICK REVIEW

[论文解读] Need for Speed: A Benchmark for Higher Frame Rate Object Tracking

Hamed Kiani Galoogahi, Ashton Fagg|arXiv (Cornell University)|Mar 17, 2017
Video Surveillance and Tracking Methods参考文献 25被引用 35
一句话总结

本文提出了 Need for Speed(NfS)基准,这是首个针对使用消费级相机的更高帧率(240 FPS)视觉目标跟踪的视频数据集与评估框架。结果表明,在高帧率视频上应用时,采用手工设计特征(如 HOG)的简单相关滤波跟踪器在准确率和实时效率方面均优于复杂的基于深度学习的跟踪器,挑战了深度网络对于鲁棒跟踪必不可少的传统假设。

ABSTRACT

In this paper, we propose the first higher frame rate video dataset (called Need for Speed - NfS) and benchmark for visual object tracking. The dataset consists of 100 videos (380K frames) captured with now commonly available higher frame rate (240 FPS) cameras from real world scenarios. All frames are annotated with axis aligned bounding boxes and all sequences are manually labelled with nine visual attributes - such as occlusion, fast motion, background clutter, etc. Our benchmark provides an extensive evaluation of many recent and state-of-the-art trackers on higher frame rate sequences. We ranked each of these trackers according to their tracking accuracy and real-time performance. One of our surprising conclusions is that at higher frame rates, simple trackers such as correlation filters outperform complex methods based on deep networks. This suggests that for practical applications (such as in robotics or embedded vision), one needs to carefully tradeoff bandwidth constraints associated with higher frame rate acquisition, computational costs of real-time analysis, and the required application accuracy. Our dataset and benchmark allows for the first time (to our knowledge) systematic exploration of such issues, and will be made available to allow for further research in this space.

研究动机与目标

  • 为解决当前高帧率(240 FPS)视觉目标跟踪缺乏标准化评估的问题,该帧率在消费级设备中已变得普遍。
  • 探究更高的帧率是否能减少帧间外观变化,从而使得更简单、更快的跟踪器能够超越复杂的深度学习模型。
  • 提供一个系统化的基准,用于评估在帧率、计算成本与准确率之间权衡的实际约束条件下的跟踪器性能。
  • 使研究人员能够探索在机器人和嵌入式视觉等资源受限环境中,计算效率、视频帧率与跟踪准确率之间的权衡。

提出的方法

  • 从真实场景中使用消费级设备采集 100 个高帧率视频(共 380,000 帧),帧率为 240 FPS。
  • 对所有帧进行人工标注,包括轴对齐的边界框以及九种视觉属性(如遮挡、快速运动、背景杂乱)。
  • 在 240 FPS 和 30 FPS 视频序列上评估 14 种最先进跟踪器——涵盖相关滤波(CF)和基于深度学习的方法。
  • 采用标准跟踪指标:准确率(IoU > 0.5 的 AUC)、实时性能(相对于视频帧率的 FPS)以及基于九种视觉属性的评估。
  • 通过比较不同帧率下的跟踪器性能,分离出时间分辨率对跟踪鲁棒性与效率的影响。
  • 结合 CPU 和 GPU 执行环境,评估不同硬件平台上的实时可行性。

实验结果

研究问题

  • RQ1将帧率从 30 FPS 提升至 240 FPS 是否能显著提升简单与复杂跟踪器的性能?
  • RQ2在高帧率视频上,计算效率更高的基于相关滤波的跟踪器(如使用手工特征,例如 HOG)是否能超越最先进的基于深度学习的跟踪器?
  • RQ3在更高帧率下,不同视觉属性(如遮挡、快速运动、光照变化)对跟踪器性能的影响,与低帧率相比有何不同?
  • RQ4深度学习跟踪器的计算成本在多大程度上限制了其在实时嵌入式系统中的实际部署,尤其是在可用高帧率视频的情况下?
  • RQ5当帧率未被纳入性能评估时,传统的准确率-速度权衡是否具有误导性?

主要发现

  • 在 240 FPS 下,采用手工特征(HOG)的简单相关滤波跟踪器(如 BACF、Staple)在快速运动、遮挡和背景杂乱等具有挑战性的属性上,其准确率和实时性能均优于所有基于深度学习的跟踪器(如 MDNet、SFC、FCNT)。
  • 在光照变化、遮挡、快速运动、目标出视野、背景杂乱和低分辨率等属性上,基于手工特征的相关滤波器跟踪器的准确率优于所有深度跟踪器及 HDT。
  • 深度跟踪器如 MDNet 在尺度变化(61.0)、形变(59.2)和视角变化(55.9)方面达到最高准确率,但在九项属性中的六项上仍逊于相关滤波器。
  • 与 30 FPS 相比,使用 240 FPS 帧率带来的准确率相对提升对相关滤波器更为显著(例如快速运动上提升 20–30%),表明高帧率显著放大了简单模型的优势。
  • 在 CPU 上,KCF 和 Staple 等跟踪器在 240 FPS 视频上实现了实时性能(速度 ≥ 240 FPS),而 MDNet 和 SFC 等深度跟踪器即使在 GPU 上也无法实现实时运行。
  • 该基准揭示,实时性能必须相对于视频帧率进行评估;在 240 FPS 视频上,运行速度为 100 FPS 的跟踪器并非真正实时,这使得传统速度-准确率比较失效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。