QUICK REVIEW

[论文解读] Deep Reinforcement Learning with Successor Features for Navigation across Similar Environments

Jingwei Zhang, Jost Tobias Springenberg|arXiv (Cornell University)|Dec 16, 2016

Reinforcement Learning in Robotics参考文献 32被引用 33

一句话总结

该论文提出了一种基于后续特征的深度强化学习算法，通过仅使用原始感官输入，实现了在类似迷宫环境间机器人导航的快速迁移学习。通过学习共享的后续特征表示，智能体能够从先前解决的任务中迁移知识，在新环境中将学习时间减少高达90%，同时保持性能，且无需显式定位、建图或规划。

ABSTRACT

In this paper we consider the problem of robot navigation in simple maze-like environments where the robot has to rely on its onboard sensors to perform the navigation task. In particular, we are interested in solutions to this problem that do not require localization, mapping or planning. Additionally, we require that our solution can quickly adapt to new situations (e.g., changing navigation goals and environments). To meet these criteria we frame this problem as a sequence of related reinforcement learning tasks. We propose a successor feature based deep reinforcement learning algorithm that can learn to transfer knowledge from previously mastered navigation tasks to new problem instances. Our algorithm substantially decreases the required learning time after the first task instance has been solved, which makes it easily adaptable to changing environments. We validate our method in both simulated and real robot experiments with a Robotino and compare it to a set of baseline methods including classical planning-based navigation.

研究动机与目标

解决在无需显式定位、建图或规划的情况下，机器人在迷宫类环境中的导航挑战。
通过迁移学习实现在新导航目标和环境中的快速适应。
开发一种强化学习方法，能够在高效学习新任务的同时保留先前任务的知识。
在结合视觉和深度传感器输入的仿真和真实机器人实验中验证该方法。
证明后续特征能够支持从原始感官数据中进行有效的表征学习。

提出的方法

将导航建模为一系列相关强化学习任务，以支持迁移学习。
使用后续特征（SFs）学习跨任务的状态值函数的共享表示，实现动态系统与奖励塑造的解耦。
将深度神经网络与后续特征结合，以处理原始视觉和深度传感器输入。
使用基于后续特征的深度Q网络预测状态值，实现在新任务上的高效微调。
利用源环境中的预训练SF表示初始化目标环境的学习过程，最大限度减少重新训练。
在SF表示上进行微调回归器，以验证智能体隐式学习到自定位能力。

实验结果

研究问题

RQ1后续特征是否能够在相似环境中实现深度强化学习在机器人导航中的快速迁移学习？
RQ2后续特征表示是否能够支持从原始感官输入中实现有效的自定位和策略泛化？
RQ3与标准DQN和基于规划的基线方法相比，该方法在样本效率和学习速度方面表现如何？
RQ4仅使用视觉或深度传感器数据，能否在仿真环境与真实世界环境之间实现有效的知识迁移？
RQ5SF-RL方法在适应新导航目标和环境的同时，是否能够保持对先前已解决任务的性能？

主要发现

SF-RL方法在从预训练模型迁移到新环境时，将学习时间减少了90%，在Map3/Map4上实现50/50的成功率。
在真实世界实验中，智能体在约8小时真实经验（以2Hz采样，共60,000步）内达到令人满意的表现，微调自仿真模型。
后续特征表示编码了足够的信息以实现自定位，这一点通过姿态回归器在保留轨迹上实现高精度得到验证。
从仿真深度图像到真实世界深度数据的迁移带来了显著的性能提升，尽管传感器噪声和真实感存在差异。
该方法在仿真和真实世界环境中均优于基线DQN和监督式模仿学习，尤其在样本效率方面表现更优。
该方法对仿真与现实之间的领域差异表现出鲁棒性，使Robotino机器人能够在真实迷宫中部署而无需大量重新训练。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。