[论文解读] Neural SLAM: Learning to Explore with External Memory
神经SLAM引入具有外部记忆的强化学习代理,它学习类SLAM的步骤来探索并覆盖未知环境,形成内部认知地图。
We present an approach for agents to learn representations of a global map from sensor data, to aid their exploration in new environments. To achieve this, we embed procedures mimicking that of traditional Simultaneous Localization and Mapping (SLAM) into the soft attention based addressing of external memory architectures, in which the external memory acts as an internal representation of the environment. This structure encourages the evolution of SLAM-like behaviors inside a completely differentiable deep neural network. We show that this approach can help reinforcement learning agents to successfully explore new environments where long-term memory is essential. We validate our approach in both challenging grid-world environments and preliminary Gazebo experiments. A video of our experiments can be found at: https://goo.gl/G2Vu5y.
研究动机与目标
- 说明需要长期内部表征以实现高效的探索与覆盖。
- 提出一个端到端可微分的架构,在神经网络中嵌入类SLAM的过程。
- 展示外部记忆如何促进在未知环境中的规划和基于记忆的探索。
提出的方法
- 在基于A3C的强化学习框架中扩展一个大小为 H x W x C 的外部记忆张量 M。
- 使用由LSTM控制的写入头和读取头来存储和检索环境信息。
- 在可微分的管道中嵌入运动预测和数据关联步骤,以使其类似SLAM。
- 读写操作遵循基于注意力的寻址机制,包含定位、基于内容的寻址,以及平移/锐化更新(方程 II-C 1-5、7-9)。
- 将读取结果与 LSTM 隐状态连接以产生策略 π 和价值 V,使用 A3C 和 GAE 训练(方程 2-3)。
- 引入运动模型以偏置记忆更新,并将外部记忆视为全局地图而不是局部自我参照地图。
实验结果
研究问题
- RQ1外部存储、可微分的记忆是否能够使强化学习代理在未知环境中学习长时程的探索策略?
- RQ2在神经网络中嵌入类SLAM的运动与测量更新,是否比无记忆或非外部记忆的基线在探索效率和覆盖方面有所提升?
- RQ3神经SLAM对超出训练课程的更大或不同环境的泛化能力如何?
- RQ4与成功探索相关的定性记忆动态(写入/读取模式)是什么?
主要发现
| 步骤 | 奖励 | 成功率 |
|---|---|---|
| Random | 5531.600 ± 4299.554 | - |
| A3C | 333.780 ± 300.098 | 33/50 |
| A3C-Nav1 | 290.500 ± 275.228 | 37/50 |
| A3C-Nav2 | 283.480 ± 279.098 | 37/50 |
| A3C-Ext | 569.640 ± 272.931 | 18/50 |
| Neural-SLAM | 174.920 ± 174.976 | 46/50 |
- Neural-SLAM在网格世界实验中优于基线,取得更高的成功率和更快的探索速度。
- 在16x16世界的泛化测试中,Neural-SLAM在所比较方法中获得最高的成功率(46/50)和最低的探索步数(174.92 ± 174.98)。
- 在没有基于运动的记忆更新的情况下,A3C-Ext 具有外部记忆的表现不及 Neural-SLAM,凸显了在记忆更新中显式运动预测的好处。
- 记忆读写头随时间分化,写入注意力集中,而读取注意力扩散以汇总地图。
- Gazebo 实验表明 Neural-SLAM 在更真实的物理/传感场景中保持鲁棒的探索性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。