[论文解读] DORA The Explorer: Directed Outreaching Reinforcement Action-Selection
本文提出了E-value,一种无需模型的访问计数器泛化方法,通过在状态-动作轨迹上传播探索价值,实现强化学习中的定向探索。通过将E-value整合到Q-learning并加入探索奖励项,该方法实现了更快的收敛速度和更优的性能——在具有挑战性的Atari Freeway游戏中,其表现优于DQN和密度模型计数器,仅需约200万步即可达到最优性能,而之前的方法则需要约1000万步。
Exploration is a fundamental aspect of Reinforcement Learning, typically implemented using stochastic action-selection. Exploration, however, can be more efficient if directed toward gaining new world knowledge. Visit-counters have been proven useful both in practice and in theory for directed exploration. However, a major limitation of counters is their locality. While there are a few model-based solutions to this shortcoming, a model-free approach is still missing. We propose $E$-values, a generalization of counters that can be used to evaluate the propagating exploratory value over state-action trajectories. We compare our approach to commonly used RL techniques, and show that using $E$-values improves learning and performance over traditional counters. We also show how our method can be implemented with function approximation to efficiently learn continuous MDPs. We demonstrate this by showing that our approach surpasses state of the art performance in the Freeway Atari 2600 game.
研究动机与目标
- 为解决局部访问计数器在定向探索中的局限性,将其泛化为可在轨迹上传播探索价值的方法。
- 开发一种无需依赖密度模型或环境模型的无模型方法,实现高效的知识导向探索。
- 提升强化学习中的样本效率与收敛速度,特别是在复杂连续MDP中。
- 在真实世界的强化学习基准(如Atari 2600 Freeway游戏)中展示E-value的有效性。
提出的方法
- 提出E-value作为访问计数器的泛化形式,利用学习到的价值函数沿状态-动作轨迹传播探索价值。
- 引入基于E-value的奖励项:$ \frac{\beta}{\sqrt{-\log E}} $,添加到奖励信号中,以鼓励探索E-value较低的状态。
- 采用双流神经网络架构:一路用于Q-value,另一路用于E-value,使用逻辑激活函数确保 $ 0 < E < 1 $。
- 使用 $ \epsilon $-greedy动作选择策略,并结合E-value奖励项,保持与标准DQN训练的兼容性。
- 采用函数逼近技术,将E-value扩展至连续状态和动作空间,避免显式的状态离散化。
- 将E-value分支初始权重设为零,以确保初始时 $ E \approx 0.5 $,满足 $ 0 < E < 1 $ 的约束条件。
实验结果
研究问题
- RQ1E-value能否有效泛化访问计数器,实现在无模型强化学习中的定向探索?
- RQ2在轨迹上传播探索价值是否相比局部计数器能提升样本效率?
- RQ3E-value能否在连续MDP中通过函数逼近实现高效计算?
- RQ4与基于密度模型的探索相比,E-value奖励在学习速度和性能上表现如何?
- RQ5在Freeway等高难度探索环境中,E-value能否优于标准DQN和现有探索基线?
主要发现
- 在Atari 2600 Freeway游戏中,E-value方法仅用约200万次训练步数即达到最优性能,显著快于之前方法所需的1000万步。
- 在最终性能和样本效率方面,E-value方法均优于标准DQN和密度模型计数器。
- 由于采用高效的双流神经网络架构,使用E-value训练的速度比使用密度模型计数器快一个数量级。
- E-value奖励项显著加快了Q-value向最优值函数收敛的速度,如轨迹特定的收敛图所示。
- 通过深度网络的有效函数逼近,该方法在连续MDP中表现出良好的鲁棒性与可扩展性。
- 使用E-value减少了对已知高风险动作的重复探索,从而提升了学习效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。