[论文解读] Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models
该论文提出了一种适用于高维环境(如Atari游戏)的深度强化学习可扩展探索方法,通过使用深度预测模型基于学习到的状态表征中的预测误差生成探索奖励。该方法优于ε-greedy、Boltzmann和Thompson采样策略,在多个游戏中实现了最先进性能,学习速度更快且最终得分更高。
Achieving efficient and scalable exploration in complex domains poses a major challenge in reinforcement learning. While Bayesian and PAC-MDP approaches to the exploration problem offer strong formal guarantees, they are often impractical in higher dimensions due to their reliance on enumerating the state-action space. Hence, exploration in complex domains is often performed with simple epsilon-greedy methods. In this paper, we consider the challenging Atari games domain, which requires processing raw pixel inputs and delayed rewards. We evaluate several more sophisticated exploration strategies, including Thompson sampling and Boltzman exploration, and propose a new exploration method based on assigning exploration bonuses from a concurrently learned model of the system dynamics. By parameterizing our learned model with a neural network, we are able to develop a scalable and efficient approach to exploration bonuses that can be applied to tasks with complex, high-dimensional state spaces. In the Atari domain, our method provides the most consistent improvement across a range of games that pose a major challenge for prior methods. In addition to raw game-scores, we also develop an AUC-100 metric for the Atari Learning domain to evaluate the impact of exploration on this benchmark.
研究动机与目标
- 解决在Atari游戏等高维复杂环境中传统方法失效时的高效探索挑战。
- 克服贝叶斯方法和PAC-MDP方法的局限性,后者需要可枚举的状态-动作空间,在高维空间中不可行。
- 开发一种可扩展的、基于模型的探索策略,利用深度神经网络从预测误差中估计状态新颖性。
- 通过动态学习到的模型不确定性激励探索,提升深度强化学习中的样本效率与学习速度。
- 在多种Atari游戏中实现一致的性能提升,尤其在人类玩家显著优于先前强化学习方法的环境中。
提出的方法
- 训练一个深度神经网络,从当前观测和动作预测下一个状态,学习低维状态表征。
- 将预测误差(真实与预测下一个状态之间的差异)用作状态新颖性的代理,生成探索奖励。
- 在策略学习过程中将探索奖励整合到奖励信号中,鼓励访问预测不确定性高的状态。
- 同时训练动力学模型与策略,实现对新环境结构的实时适应。
- 使用自编码器从原始像素输入中提取有意义的低维表征,再将其输入动力学模型。
- 在在线强化学习设置中应用该方法,结合经验回放与带有探索奖励的深度Q网络(DQN)训练。
实验结果
研究问题
- RQ1学习到的预测模型是否能有效替代高维状态空间中的枚举式探索奖励?
- RQ2基于预测误差的模型化探索方法与ε-greedy和Boltzmann探索等启发式方法相比,在学习速度和最终性能上表现如何?
- RQ3基于模型的探索在稀疏奖励和复杂动力学的挑战性Atari游戏中,能在多大程度上提升样本效率与性能表现?
- RQ4使用深度神经网络进行动力学建模是否能实现在原始像素输入环境中的可扩展且有效的探索?
- RQ5在人类玩家显著优于先前强化学习智能体的游戏上,所提出方法的表现如何?
主要发现
- 所提出的基于模型的探索方法在14款Atari游戏中有7款取得了最高最终得分,优于所有基线方法,包括DQN和人类专家得分。
- 在《蒙特祖玛的复仇》游戏中,该方法取得了4,367分的最终得分,显著优于次佳方法(1,059.6分),证明其在高度探索性环境中的成功。
- 在《海底潜水》游戏中,该方法取得了20,182分的最终得分,超过人类专家的13,455分和DQN基线的2,106分,表明其在复杂且稀疏奖励环境中的强大性能。
- AUC-100指标显示,基于模型的探索方法的学习曲线快于ε-greedy和其他基线方法,在各类游戏中均表现出一致的改进。
- Boltzmann和Thompson采样方法优于ε-greedy,但仍被基于模型的奖励方法超越,后者在多种游戏类型中展现出最一致的性能提升。
- 该方法显著优于静态自编码器方法,动态在训练过程中重新训练自编码器的性能优于预训练表征。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。