QUICK REVIEW

[论文解读] Curiosity-driven Exploration for Mapless Navigation with Deep Reinforcement Learning

Oleksii Zhelo, Jingwei Zhang|arXiv (Cornell University)|Apr 2, 2018

Robotics and Sensor-Based Localization参考文献 4被引用 83

一句话总结

该论文通过引入内在好奇模块（Intrinsic Curiousity Module，ICM）来增强无地图的深度强化学习导航，展示了学习效率的提升以及对未见地图的泛化能力。

ABSTRACT

This paper investigates exploration strategies of Deep Reinforcement Learning (DRL) methods to learn navigation policies for mobile robots. In particular, we augment the normal external reward for training DRL algorithms with intrinsic reward signals measured by curiosity. We test our approach in a mapless navigation setting, where the autonomous agent is required to navigate without the occupancy map of the environment, to targets whose relative locations can be easily acquired through low-cost solutions (e.g., visible light localization, Wi-Fi signal localization). We validate that the intrinsic motivation is crucial for improving DRL performance in tasks with challenging exploration requirements. Our experimental results show that our proposed method is able to more effectively learn navigation policies, and has better generalization capabilities in previously unseen environments. A video of our experimental results can be found at https://goo.gl/pWbpcF.

研究动机与目标

在环境地图不可用的无地图机器人导航中，激励有效的探索。
将内在动机与外在奖励结合，指导策略学习。
评估学习到的策略对未见环境和结构的泛化能力。

提出的方法

在A3C强化学习中扩展为外部奖励和内在奖励的组合信号 R = Re + liRi。
实现包括特征提取器 φ、逆模型 ψi 和前向模型 ψf 的 Intrinsic Curiousity Module (ICM)，通过预测误差产生内在奖励 Ri。
使用异步执行体（A3C）在外部与内在奖励混合的情况下进行训练，以鼓励对新颖状态的探索。
将激光测距传感器和相对目标位姿作为状态；动作为离散动作（直行、向左转、向右转）。
ICM 损失将逆模型的交叉熵与前向模型回归结合，以塑造 φ 并促使获得有用的表示。

实验结果

研究问题

RQ1内在好奇心是否提高了无地图导航的样本效率和DRL的收敛性？
RQ2内在动机如何影响对具有不同布局的未见环境的泛化？
RQ3在何种条件下（有/无 LSTM、有/无熵）下，基于好奇心的探索优于标准探索？
RQ4在引导导航策略时，内在奖励与外在奖励之间有哪些权衡？

主要发现

探索策略	Map1 成功率 (%)	Map1 步数（均值 ± 标准差）
A3C-	88.3	173.063 ± 123.277
Entropy	96.7	102.220 ± 90.230
ICM	98.7	91.230 ± 62.511
ICM+Entropy	100	75.160 ± 52.075

基于ICM的探索在训练地图上比仅熵或无好奇心的基线获得更高的成功率，且路径通常更短。
在 Map1 上，ICM 达到了 98.7% 的成功率，平均步数 91.2（标准差 62.5），相比之下最强的非 ICM 基线为 88.3% 和 173.1 步。
将 ICM 与熵结合进一步提升性能和稳定性，在 Map1 与 LSTM 情况下实现 100% 的成功率，平均步数 75.2（标准差 52.1）。
ICM 提高对未见地图（Map2–4）的泛化，特别是在更具挑战性的布局中，ICM+Entropy 常能获得更好或相当的成功率并且步数较低，相较于其他方法。
结果表明好奇心有助于跳出局部极小值，并通过将智能体引导到新颖且信息丰富的状态来加速学习。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。