QUICK REVIEW

[论文解读] End-to-end Active Object Tracking via Reinforcement Learning

Wenhan Luo, Peng Sun|arXiv (Cornell University)|May 30, 2017

Video Surveillance and Tracking Methods参考文献 57被引用 40

一句话总结

本文提出了一种基于深度强化学习的端到端主动目标追踪系统，在模拟环境中，ConvNet-LSTM智能体直接从原始视频帧预测摄像头控制动作。该方法在未见过的目标外观、运动轨迹、背景和干扰物上实现了鲁棒的追踪泛化，并且无需在真实世界进行微调即可实现向现实场景的可转移性能。

ABSTRACT

We study active object tracking, where a tracker takes as input the visual observation (i.e., frame sequence) and produces the camera control signal (e.g., move forward, turn left, etc.). Conventional methods tackle the tracking and the camera control separately, which is challenging to tune jointly. It also incurs many human efforts for labeling and many expensive trial-and-errors in realworld. To address these issues, we propose, in this paper, an end-to-end solution via deep reinforcement learning, where a ConvNet-LSTM function approximator is adopted for the direct frame-toaction prediction. We further propose an environment augmentation technique and a customized reward function, which are crucial for a successful training. The tracker trained in simulators (ViZDoom, Unreal Engine) shows good generalization in the case of unseen object moving path, unseen object appearance, unseen background, and distracting object. It can restore tracking when occasionally losing the target. With the experiments over the VOT dataset, we also find that the tracking ability, obtained solely from simulators, can potentially transfer to real-world scenarios.

研究动机与目标

解决传统被动追踪器无法处理摄像头控制且需要大量人工标注或真实世界试错的问题。
开发一种端到端的主动追踪解决方案，通过深度强化学习联合优化目标追踪与摄像头控制。
实现对未见过环境的泛化能力，包括新颖的目标外观、运动轨迹、背景和干扰物。
证明在模拟环境中学习的策略能够成功迁移到真实世界的追踪场景中。

提出的方法

采用ConvNet-LSTM架构，以端到端方式将原始视频帧直接映射为摄像头控制动作（例如：前进、左转）。
使用A3C强化学习算法，通过自定义设计的密集奖励函数训练智能体，以鼓励其靠近目标物体。
通过模拟器API生成具有不同目标外观、背景和运动轨迹的多样化训练场景，实现环境增强。
利用虚拟环境（ViZDoom和Unreal Engine）训练智能体，无需人工标注的边界框或真实世界部署成本。
进行显著性图分析，以解释图像中哪些区域最影响智能体的动作决策，确认其注意力集中在目标物体上。
在VOT数据集的真实世界视频片段上评估训练好的策略，以评估零样本迁移能力。

实验结果

研究问题

RQ1端到端的深度强化学习智能体是否能够在无需人工标注边界框或真实世界数据采集的情况下，学习执行主动目标追踪？
RQ2在模拟环境中训练的策略在未见过的目标外观、运动路径和背景环境中的泛化能力如何？
RQ3当目标因遮挡或快速运动而短暂丢失时，智能体是否能够恢复追踪？
RQ4在模拟环境中学习的策略是否能无需微调即有效迁移到真实世界视频序列中？
RQ5智能体在做出摄像头控制决策时，优先考虑哪些视觉线索？

主要发现

所提出的基于强化学习的端到端追踪器在模拟环境中对未见过的目标运动路径、外观、背景和干扰物均表现出鲁棒的泛化能力。
该追踪器在目标短暂丢失后能够成功恢复追踪，表现出对追踪失败的鲁棒性。
在真实世界视频片段上测试时，该追踪器在VOT数据集上表现出高性能，表明其从模拟到现实的零样本迁移能力极强。
显著性图分析确认智能体聚焦于目标物体，表明其已学会关注正确的视觉内容。
与配备手工调校摄像头控制模块的传统被动追踪器相比，该追踪器在主动追踪场景中表现更优。
定制化的奖励函数和环境增强显著提升了策略的泛化能力和训练稳定性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。