[论文解读] Exploration by Random Network Distillation
论文提出了一种简单的内在探索奖励,称为随机网络蒸馏(RND),并表明它能在困难的 Atari 游戏中促进强探索,在没有示范的情况下在 Montezuma’s Revenge 上达到最新水平。它还提出了一种将内在和外在奖励结合以提升性能的方法。
We introduce an exploration bonus for deep reinforcement learning methods that is easy to implement and adds minimal overhead to the computation performed. The bonus is the error of a neural network predicting features of the observations given by a fixed randomly initialized neural network. We also introduce a method to flexibly combine intrinsic and extrinsic rewards. We find that the random network distillation (RND) bonus combined with this increased flexibility enables significant progress on several hard exploration Atari games. In particular we establish state of the art performance on Montezuma's Revenge, a game famously difficult for deep reinforcement learning methods. To the best of our knowledge, this is the first method that achieves better than average human performance on this game without using demonstrations or having access to the underlying state of the game, and occasionally completes the first level.
研究动机与目标
- 在外在奖励稀疏或获取困难时,激励深度强化学习中的探索。
- 提出一个基于预测固定随机网络输出的简单、可扩展的内在奖励。
- 在策略优化中实现对内在和外在奖励的灵活整合。
- 在难以探索的 Atari 游戏(包括 Montezuma’s Revenge、Gravitar 和 Venture)上证明有效性。
提出的方法
- 定义一个固定的随机初始化目标网络,将观测映射到一个 k 维嵌入 f(x)。
- 训练预测网络以最小化目标嵌入的均方误差:E[||f_hat(x; θ_hat) - f(x)||^2]。
- 将预测器的预测误差作为内在奖励 i_t,加到外在奖励 e_t 上:r_t = e_t + i_t。
- 通过运行标准差对内在奖励进行归一化,并对观测进行白化以稳定学习。
- 使用具有两个价值头(V_E 和 V_I)的方式将内在和外在奖励结合,以处理不同的奖励流与折扣。
- 通过大量并行环境进行扩展实验以评估性能。
- 将 RND 与基于动力学的探索和 PPO 基线进行比较,以在多个难以探索的游戏上确立有效性。
实验结果
研究问题
- RQ1RND 基于探索的奖励是否在奖励稀疏的环境中改善探索,且不需要示范或访问游戏内部状态?
- RQ2将 RND 与外在奖励结合时的表现如何,使用独立的内在与外在奖励价值头是否有益?
- RQ3不同的折扣因子对内在与外在奖励在探索与性能上的影响是什么?
- RQ4扩大并行经验的规模是否能提升 RND 代理的性能与最终结果?
- RQ5相比 forward-dynamics 探索方法和基线,RND 在多种困难的 Atari 游戏中的表现如何?
主要发现
| Gravitar | Montezuma’s Revenge | Pitfall! | PrivateEye | Solaris | Venture |
|---|---|---|---|---|---|
| 3906 | 8152 | -3 | 8666 | 3282 | 1859 |
| 3426 | 2497 | 0 | 105 | 3387 | 0 |
| 3371 | 400 | 0 | 33 | 3246 | 1712 |
| 2209 | 3700 | 0 | 15806 | 12380 | 1813 |
| 3351 | 4753 | 6464 | 69571 | 12327 | 1188 |
- RND 在若干难度较高的 Atari 游戏上实现了强探索,超越基线,在 Montezuma’s Revenge 上无需示范就达到最新水平。
- 将非情节性内在奖励与情节性外在奖励(使用两个价值头)结合在若干实验中提升了对探索的表现,相对于仅情节性的设置。
- 更高的外在折扣因子提升了性能,而更高的内在折扣因子可能降低探索。
- 更大规模的训练与更多并行环境在平均回报和最终性能上带来提升,尤其是使用循环策略时。
- RND 在 Montezuma’s Revenge、Private Eye 和 Solaris 等游戏上优于基于前向动力学的探索,在若干游戏中与 PPO 相当或更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。