QUICK REVIEW

[论文解读] Learning Exploration Policies for Navigation

Tao Chen, Saurabh Gupta|arXiv (Cornell University)|Mar 5, 2019

Reinforcement Learning in Robotics参考文献 39被引用 37

一句话总结

本论文在现实感知的三维环境中使用 RGB-D 输入和车载传感奖励来学习与任务无关的探索策略，以实现导航。它通过模仿学习进行引导，再以基于覆盖率的内在奖励进行微调，性能超过仅几何信息的基线和基于好奇心的探索，并有利于下游导航任务。

ABSTRACT

Numerous past works have tackled the problem of task-driven navigation. But, how to effectively explore a new environment to enable a variety of down-stream tasks has received much less attention. In this work, we study how agents can autonomously explore realistic and complex 3D environments without the context of task-rewards. We propose a learning-based approach and investigate different policy architectures, reward functions, and training paradigms. We find that the use of policies with spatial memory that are bootstrapped with imitation learning and finally finetuned with coverage rewards derived purely from on-board sensors can be effective at exploring novel environments. We show that our learned exploration policies can explore better than classical approaches based on geometry alone and generic learning-based exploration techniques. Finally, we also show how such task-agnostic exploration can be used for down-stream tasks. Code and Videos are available at: https://sites.google.com/view/exploration-for-nav.

研究动机与目标

将探索动机化为在新环境中导航的任务无关问题。
设计一种策略架构，利用 RGB-D 数据和带时空记忆的占用图进行长时距离探索。
提出基于覆盖的内在奖励，以及来自车载传感器的碰撞惩罚。
研究包含模仿学习后再进行强化学习的训练范式，以提高样本效率。
展示对未见环境的泛化能力以及对下游导航任务的效用。

提出的方法

提出一个循环策略 \u000e，处理自我视角的占用图和 RGB 输入以驱动探索动作。
构建一个从地标参考系到自我视角的地图，并融合两种地图尺度（40m x 40m 和 4m x 4m）以用于 CNN 基于特征提取。
从人类探索轨迹进行模仿学习以引导策略学习，然后在内在奖励上使用 PPO 进行微调。
定义基于覆盖面积增加的内在奖励，结合来自碰撞传感器的碰撞惩罚。
在基于 House3D 的真实环境中使用 RGB-D 观测和碰撞传感器来评估探索与下游导航。
与基于边界前沿的几何探索和基于好奇心的基线进行比较，以评估对传感器/几何可协性不匹配的鲁棒性。

实验结果

研究问题

RQ1如何在车载传感器的帮助下，任务无关的探索策略高效地探索新颖的三维环境？
RQ2以人工演示进行自举并结合内在覆盖奖励是否能提升探索质量和样本效率？
RQ3学习得到的探索策略能否对未见环境进行泛化并有助于下游导航任务？

主要发现

基于学习的探索，结合空间记忆策略和覆盖奖励，在传感器噪声和几何/可用性不匹配的情况下，优于纯几何基线和基于好奇心的探索。
模仿学习提升了表现并降低方差，进一步通过强化学习微调获得收益。
结合 RGB 和地图输入相较仅使用 RGB 或地图时，提升了探索效果。
来自机载传感器地图的内在覆盖奖励促进比从环境特征设计的外在奖励更好的探索。
探索策略在新环境中的目标图像定位和路径规划等下游任务中带来可衡量的收益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。