QUICK REVIEW

[论文解读] Learning Policies for Adaptive Tracking with Deep Feature Cascades

Chen Huang, Simon Lucey|arXiv (Cornell University)|Aug 9, 2017

Video Surveillance and Tracking Methods参考文献 35被引用 47

一句话总结

该论文提出EAST（EArly-Stopping Tracker），一种基于强化学习的自适应深度跟踪框架，可在推理过程中根据帧的复杂度动态决定何时停止特征层的处理，从而在接近实时的速度下（CPU上达到23.2 fps）实现最先进（SOTA）的跟踪精度。该方法在50%的帧上将推理成本降低高达100倍，同时在OTB和VOT基准测试中保持高性能。

ABSTRACT

Visual object tracking is a fundamental and time-critical vision task. Recent years have seen many shallow tracking methods based on real-time pixel-based correlation filters, as well as deep methods that have top performance but need a high-end GPU. In this paper, we learn to improve the speed of deep trackers without losing accuracy. Our fundamental insight is to take an adaptive approach, where easy frames are processed with cheap features (such as pixel values), while challenging frames are processed with invariant but expensive deep features. We formulate the adaptive tracking problem as a decision-making process, and learn an agent to decide whether to locate objects with high confidence on an early layer, or continue processing subsequent layers of a network. This significantly reduces the feed-forward cost for easy frames with distinct or slow-moving objects. We train the agent offline in a reinforcement learning fashion, and further demonstrate that learning all deep layers (so as to provide good features for adaptive tracking) can lead to near real-time average tracking speed of 23 fps on a single CPU while achieving state-of-the-art performance. Perhaps most tellingly, our approach provides a 100X speedup for almost 50% of the time, indicating the power of an adaptive approach.

研究动机与目标

为解决在资源受限设备上深度视觉目标跟踪中精度与速度之间的权衡问题。
通过利用帧级别的复杂度差异，减少深度跟踪器的计算成本，其中简单帧可减少特征使用。
学习一种自适应决策策略，以确定何时在浅层网络中停止处理，何时继续向深层网络推进。
在显著提升推理速度的同时保持高精度，尤其在CPU上实现近实时性能，且不损失性能。
通过智能的早期停止机制最小化前向传播成本，实现在嵌入式系统上的实时跟踪。

提出的方法

将自适应跟踪建模为一个序列决策过程，利用强化学习选择用于目标定位的最佳特征层。
构建一个包含多个层级的深度特征级联结构，其中包含一个使用原始像素值的“零阶”层，以支持早期停止。
通过离线强化学习训练一个智能体，根据响应图中的置信度，决定是否在当前层输出预测结果，或继续进入下一层。
使用快速相关滤波器结合傅里叶处理，在早期层高效计算响应图，从而加速推理过程。
采用端到端训练方式，使每一层均同时优化跟踪精度和早期停止的效用，类似于深度监督机制。
在测试阶段应用所学策略，跳过不必要的前向传播，从而在简单帧上显著降低计算成本。

实验结果

研究问题

RQ1强化学习智能体能否学会在目标跟踪过程中及时判断是否停止深度网络的特征处理？
RQ2基于学习策略的自适应早期停止是否能在不损害跟踪精度的前提下实现显著加速？
RQ3该方法是否能在CPU上实现接近实时的性能，同时在标准基准测试中保持最先进精度？
RQ4在速度-精度权衡方面，该自适应跟踪器与固定深度的深度跟踪器及浅层相关滤波方法相比表现如何？
RQ5简单帧在早期停止机制下受益程度如何？该策略是否能在多样化跟踪场景中实现良好泛化？

主要发现

EAST在单个CPU上实现了平均23.2 fps的处理速度，使其接近实时，显著快于大多数深度跟踪器。
该方法在约50%的帧上实现了100倍的加速，充分证明了对简单帧进行自适应处理的有效性。
在OTB-100基准测试中，EAST取得了0.629的AUC分数，接近最先进水平，且是性能顶尖跟踪器中速度最快的。
在VOT-15基准测试中，EAST在CPU上实现21 fps，在GPU上实现148 fps，速度比MDNet快148倍，同时保持了相近的精度。
在VOT-14挑战赛中，EAST通过在精度与速度之间取得良好平衡，获得整体最佳排名，超越了38个其他跟踪器。
通过强化学习学习到的自适应策略比启发式阈值法更具鲁棒性，并优于固定层选择机制。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。