[论文解读] Learning Visual Servoing with Deep Features and Fitted Q-Iteration
该论文提出了一种样本高效的视觉伺服方法,利用预训练的深度特征(VGG-16)和双线性动力学模型,在视觉变化和遮挡条件下实现鲁棒的目标跟踪。通过结合拟合Q-迭代与特征加权,仅使用20条轨迹样本即可实现有效控制——相比标准的无模型强化学习,样本效率提升超过100倍,且性能优于基于像素或关键点的方法。
Visual servoing involves choosing actions that move a robot in response to observations from a camera, in order to reach a goal configuration in the world. Standard visual servoing approaches typically rely on manually designed features and analytical dynamics models, which limits their generalization capability and often requires extensive application-specific feature and model engineering. In this work, we study how learned visual features, learned predictive dynamics models, and reinforcement learning can be combined to learn visual servoing mechanisms. We focus on target following, with the goal of designing algorithms that can learn a visual servo using low amounts of data of the target in question, to enable quick adaptation to new targets. Our approach is based on servoing the camera in the space of learned visual features, rather than image pixels or manually-designed keypoints. We demonstrate that standard deep features, in our case taken from a model trained for object classification, can be used together with a bilinear predictive model to learn an effective visual servo that is robust to visual variation, changes in viewing angle and appearance, and occlusions. A key component of our approach is to use a sample-efficient fitted Q-iteration algorithm to learn which features are best suited for the task at hand. We show that we can learn an effective visual servo on a complex synthetic car following benchmark using just 20 training trajectory samples for reinforcement learning. We demonstrate substantial improvement over a conventional approach based on image pixels or hand-designed keypoints, and we show an improvement in sample-efficiency of more than two orders of magnitude over standard model-free deep reinforcement learning algorithms. Videos are available at http://rll.berkeley.edu/visual_servoing .
研究动机与目标
- 开发一种可在视角、光照、遮挡等视觉变化下泛化的视觉伺服系统,且无需人工特征工程。
- 通过极少量数据(具体为20条以内轨迹样本)实现对新目标的快速适应。
- 在视觉伺服中实现超越标准无模型深度强化学习的样本效率。
- 学习一种可自动选择相关视觉特征用于目标跟踪的控制策略。
- 以学习到的表征和预测模型替代人工设计的特征与解析动力学模型。
提出的方法
- 使用预训练的VGG-16特征(来自ImageNet分类任务)作为视觉状态表征,避免人工特征设计。
- 采用双线性模型预测相机运动如何影响视觉特征变化,实现在特征空间中的动力学建模。
- 应用拟合Q-迭代并结合线性Q-函数近似器,学习最小化到目标特征加权欧氏距离的策略。
- 通过Q-值学习引入特征加权机制,使策略能够聚焦于用于目标跟踪的判别性特征。
- 在Q-迭代中采用一步前瞻,以优化长期控制目标,同时保持计算可行性。
- 仅使用20个专家示范端到端训练策略,实现高度数据效率。
实验结果
研究问题
- RQ1是否可以有效利用分类网络中的预训练深度特征(无需微调)进行视觉伺服?
- RQ2双线性动力学模型是否能准确预测机器人运动下视觉伺服中特征的变化?
- RQ3结合学习到的特征加权的拟合Q-迭代是否能在极小数据量下实现鲁棒的目标跟踪?
- RQ4与基于像素或关键点的视觉伺服方法相比,所提方法在样本效率和鲁棒性方面表现如何?
- RQ5该方法是否能在存在遮挡和视角变化的复杂动态环境中实现泛化?
主要发现
- 仅使用20个专家轨迹样本,该方法在复杂合成基准上实现了有效的车辆跟随,展现出极高的数据效率。
- 其性能优于使用TRPO训练的基于像素的深度强化学习策略,后者不仅需要更多数据,且表现更差。
- 该方法在性能和速度上均优于基于ORB和C-COT跟踪器的IBVS方法,后者仅以1 Hz运行,而本方法达到16 Hz。
- 结合预训练VGG特征、学习到的动力学模型与Q-迭代,使系统对视角变化、光照变化和部分遮挡具有鲁棒性。
- 与标准无模型深度强化学习算法相比,样本效率提升了两个多数量级。
- 由拟合Q-迭代学习到的特征加权机制成功选取出判别性特征,即使在杂乱场景中也能实现鲁棒的目标跟踪。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。