[论文解读] Deep Reinforcement Learning for Visual Object Tracking in Videos
本文提出一个端到端的 Deep RL Tracker,将 CNN、RNN(LSTM) 与强化学习相结合,预测跨视频帧的目标对象的边界框,在 OTB 上达到最先进的结果,且实现实时或更快的性能。
In this paper we introduce a fully end-to-end approach for visual tracking in videos that learns to predict the bounding box locations of a target object at every frame. An important insight is that the tracking problem can be considered as a sequential decision-making process and historical semantics encode highly relevant information for future decisions. Based on this intuition, we formulate our model as a recurrent convolutional neural network agent that interacts with a video overtime, and our model can be trained with reinforcement learning (RL) algorithms to learn good tracking policies that pay attention to continuous, inter-frame correlation and maximize tracking performance in the long run. The proposed tracking algorithm achieves state-of-the-art performance in an existing tracking benchmark and operates at frame-rates faster than real-time. To the best of our knowledge, our tracker is the first neural-network tracker that combines convolutional and recurrent networks with RL algorithms.
研究动机与目标
- 将视觉跟踪形式化为一个序列决策问题,并利用时间信息提升长时跟踪性能。
- 开发一个卷积-递归神经网络,直接从视频帧输出边界框。
- 离线使用强化学习对模型进行训练,以最大化长期跟踪奖励。
- 在不进行在线微调的情况下,通过简单的前向传播实现在线跟踪,同时保持高精度。
提出的方法
- 一个观测网络将每帧编码为特征并拼接一个位置信号向量,然后输入到递归网络。
- 一个递归(LSTM)网络处理时间特征,从隐藏状态 h_t 预测边界框 l_t = (x, y, w, h)。
- 策略输出 l_t 作为高斯分布的均值;训练使用带基线的 REINFORCE 以降低梯度方差。
- 使用两种奖励定义:早期阶段 r_t = -avg(|l_t - g_t|) - max(|l_t - g_t|) 和晚期阶段基于 IoU 的 r_t = |l_t ∩ g_t| / |l_t ∪ g_t|,最大化总奖励 R=Σ r_t。
- 训练将反向传播与 REINFORCE 相结合,端到端更新 W = {W_o, W_r};高斯策略允许在训练时采样,在测试时得到确定性输出。
- 来自预训练的 YOLO 的特征(训练期间固定)与位置信号融合形成观测向量;一个 1 层、5000 单元的 LSTM 处理时序推理。
实验结果
研究问题
- RQ1一个完全端到端的 CNN+RNN 模型,使用强化学习进行训练,是否能够在视频帧之间有效跟踪目标对象?
- RQ2通过 LSTM 引入长期时序信息是否相较于逐帧方法能提高跟踪鲁棒性?
- RQ3离线训练的深度强化学习跟踪器能否在不进行在线微调的情况下以实时帧率在线运行,同时保持高精度?
- RQ4不同奖励形式(早期代理 vs 基于 IoU 的)对长期跟踪性能有何影响?
主要发现
| Tracker | AUC | precision | speed (fps) |
|---|---|---|---|
| DLT [27] | 0.384 | 0.490 | 8 |
| STRUCK [8] | 0.496 | 0.664 | 10 |
| DRLT (ours) | 0.543 | 0.635 | 45 |
| DRLT-LSTM (ours) | 0.543 | 0.635 | 270 |
- 所提出的 DRLT 框架在 OTB 跟踪基准上相较于多项基线实现了最先进的性能。
- DRLT 在 GTX 1080 上约为 45 fps,使用预计算的 YOLO 特征时变体 DRLT-LSTM 可达到 270 fps。
- 在基准子集上,DRLT 的 AUC 为 0.543,精度为 0.635,优于 DLT (0.368 AUC) 和 STRUCK (0.496 AUC)。
- 更大的 RNN 步长(更长的时间窗口)提高了跟踪精度,凸显了时序建模的重要性。
- 由于离线训练和简单的在线前向传播,测试时无需在线微调,仍然实现实时性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。