[论文解读] Learning Montezuma's Revenge from a Single Demonstration
本论文提出了一种强化学习方法,在每一集从单个演示中的状态开始,以解决诸如 Montezuma's Revenge 这类稀疏奖励任务,取得了无需模仿就达到的最先进分数。
We propose a new method for learning from a single demonstration to solve hard exploration tasks like the Atari game Montezuma's Revenge. Instead of imitating human demonstrations, as proposed in other recent works, our approach is to maximize rewards directly. Our agent is trained using off-the-shelf reinforcement learning, but starts every episode by resetting to a state from a demonstration. By starting from such demonstration states, the agent requires much less exploration to learn a game compared to when it starts from the beginning of the game at every episode. We analyze reinforcement learning for tasks with sparse rewards in a simple toy environment, where we show that the run-time of standard RL methods scales exponentially in the number of states between rewards. Our method reduces this to quadratic scaling, opening up many tasks that were previously infeasible. We then apply our method to Montezuma's Revenge, for which we present a trained agent achieving a high-score of 74,500, better than any previously published result.
研究动机与目标
- 激发解决稀疏奖励的困难探索任务的动力。
- 通过演示引导的课程直接优化奖励,避免模仿。
- 证明重置到演示状态可以将探索难度从指数级降低到平方级。
- 展示在蒙特祖玛的复仇上的可扩展性和相对于现有方法的效果。
提出的方法
- 通过从演示状态开始并逐步将重置点移向演示的起始来构建课程。
- 使用多并行 rollout 工作者共享一个 RL 策略以收集数据,并由中心优化器更新策略。
- 在训练中对齐演示片段的隐藏状态初始化 RNN 策略,同时对这些转移进行掩蔽。
- 应用现成的 RL 算法(如 PPO、A3C、Impala)进行策略更新。
- 基于达到演示的分数的比例动态调整重置点,阈值设为 ρ。
- 通过逐步返回到更早的演示状态来训练代理以超过演示分数。
实验结果
研究问题
- RQ1从演示状态开始的情节是否能在像蒙特祖玛的复仇这样的稀疏奖励环境中实现有效学习?
- RQ2演示引导的课程是否将探索复杂度从指数级降低到更易处理的增长?
- RQ3与基于模仿的方法相比,该方法在最终性能和对亚最优演示的鲁棒性方面表现如何?
- RQ4在 Atari 级任务上训练这类代理的可扩展性和实际需求(如计算、网络结构)是什么?
主要发现
- 该方法达到蒙特祖玛的复仇最终分数74,500,超过先前发表的结果。
- 在一个 toy 的盲人攀崖行走中,从演示状态开始将探索复杂度从指数级降低到平方级。
- 代理能够通过收集额外的宝石和发现新路径(如钥匙重新出现)来超过演示分数。
- 训练使用约 128 台 GPU 约两周,课程将重置点从演示末尾向前移动至演示起始。
- 该方法在不进行硬模仿的情况下学习,直接优化回报并有可能发现新策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。