[论文解读] One-Shot Reinforcement Learning for Robot Navigation with Interactive Replay
本文提出通过离线学习进行机器人导航,利用来自单次真实遍历的交互回放、一个固定的预训练视觉编码器,以及随机观测增强,在无需微调的情况下实现零样本迁移。
Recently, model-free reinforcement learning algorithms have been shown to solve challenging problems by learning from extensive interaction with the environment. A significant issue with transferring this success to the robotics domain is that interaction with the real world is costly, but training on limited experience is prone to overfitting. We present a method for learning to navigate, to a fixed goal and in a known environment, on a mobile robot. The robot leverages an interactive world model built from a single traversal of the environment, a pre-trained visual feature encoder, and stochastic environmental augmentation, to demonstrate successful zero-shot transfer under real-world environmental variations without fine-tuning.
研究动机与目标
- 通过通过一个环境遍历学习来减少现实世界交互,利用一个交互式世界模型。
- 利用固定的、预训练的视觉编码器,防止对小的训练集过拟合。
- 通过随机观测来增强训练,以提高泛化和迁移能力。
- 评估引导式Q学习以获得稳健、可迁移的导航性能。
提出的方法
- 通过构建位姿图及其交互回放缓冲区,从单次遍历构建一个虚拟训练环境。
- 使用固定的2048维 ResNet-50视觉编码器,在每个时间步产生8192维观测向量。
- 通过从真实位姿周围的分布中采样来增强观测,产生随机观测。
- 训练一个带有NQ头和Nw并行工作线程的自举式双重对决Q学习架构。
- 与A2C和单头n步Q学习进行比较,以评估学习和迁移性能。
实验结果
研究问题
- RQ1是否可以在不进行微调的情况下,通过来自一次遍历的离线交互回放来学习达到固定目标的导航?
- RQ2预训练的视觉特征和随机观测如何影响对未见环境变异的学习与迁移?
- RQ3在这一机器人导航场景中,自举式Q学习是否优于其他强化学习方法?
- RQ4多个Q头和并行工作者对训练稳定性和性能有何影响?
主要发现
- 自举式Q学习在所测试的强化学习方法中表现最好;其他算法未能可靠地解决该任务。
- 通过随机观测来增强环境显著提升训练和验证表现。
- 使用训练过程中固定的预训练视觉编码器提升迁移能力并降低计算需求。
- 随机观测提升了对验证环境的迁移能力,表明对未见变异的泛化更好。
- 预训练特征加上随机增强相比从零开始训练,在训练和迁移方面取得显著更好的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。