[论文解读] Distributional Reinforcement Learning for Efficient Exploration
该论文提出了一种新颖的深度强化学习探索方法,通过利用分布式Q-learning(QR-DQN)的值分布上侧分位数来计算探索奖励,并采用衰减调度以抑制内在不确定性。该方法在49款Atari游戏中相较QR-DQN平均获得483%的累积奖励提升,在CARLA 3D驾驶模拟器中安全奖励的学习速度提升一倍。
In distributional reinforcement learning (RL), the estimated distribution of value function models both the parametric and intrinsic uncertainties. We propose a novel and efficient exploration method for deep RL that has two components. The first is a decaying schedule to suppress the intrinsic uncertainty. The second is an exploration bonus calculated from the upper quantiles of the learned distribution. In Atari 2600 games, our method outperforms QR-DQN in 12 out of 14 hard games (achieving 483 \% average gain across 49 games in cumulative rewards over QR-DQN with a big win in Venture). We also compared our algorithm with QR-DQN in a challenging 3D driving simulator (CARLA). Results show that our algorithm achieves near-optimal safety rewards twice faster than QRDQN.
研究动机与目标
- 通过利用分布式强化学习所学习的值分布中的不确定性,解决深度强化学习中高效探索的挑战。
- 区分分布式值估计中的参数不确定性与内在不确定性,并抑制内在不确定性以提升探索效率。
- 利用值分布的上侧分位数开发一种计算轻量级的探索奖励机制,以促进乐观探索。
- 在具有挑战性的环境(包括Atari 2600和CARLA 3D驾驶模拟器)中,相比QR-DQN基线模型,实现更优的性能表现。
- 通过基于分位数的动作选择,实现在安全关键环境中的风险敏感行为,尤其在最小化碰撞影响方面表现更优。
提出的方法
- 使用分位数回归DQN(QR-DQN)学习状态-动作值函数的完整分布,以捕捉参数不确定性和内在不确定性。
- 应用衰减调度以随时间减少内在不确定性的影响,提升探索的稳定性。
- 基于学习到的值分布的上侧分位数(如0.95或0.99)计算探索奖励,以促进乐观动作选择。
- 利用Hoeffding不等式估计状态-动作值的高置信度上界,借助分位数估计量的渐近正态性。
- 实施截断方差估计以优化探索奖励,避免因重尾分布导致的过度估计。
- 在训练过程中将探索奖励与贪婪策略结合,实现在仅增加QR-DQN计算量的前提下实现高效探索。
实验结果
研究问题
- RQ1QR-DQN中值分布的上侧分位数能否用于构建有效且高效的探索奖励?
- RQ2如何抑制分布式值估计中的内在不确定性,以防止次优探索行为?
- RQ3在自动驾驶模拟器等高风险环境中,基于分位数的动作选择是否能提升安全性和性能?
- RQ4所提出方法在Atari 2600环境中是否能在累积奖励和样本效率方面超越采用ε-greedy探索的QR-DQN?
- RQ5在复杂环境中,非对称值分布对探索和风险敏感策略学习有何影响?
主要发现
- 该方法在49款Atari游戏中相较QR-DQN平均获得483%的累积奖励提升,其中在游戏Venture中提升尤为显著,达到483%。
- 在CARLA 3D驾驶模拟器中,该方法实现近似最优安全奖励的速度是QR-DQN的两倍,显著提升了安全指标。
- 使用值分布的10%分位数(q₀.₁)进行动作选择,可实现平均1.35公里的车道偏离前行驶距离,而基于均值的选择仅能实现1.35公里,表明风险敏感性显著提升。
- 基于VaR(Q(s,a)₉₀%)的风险敏感策略相比基于均值的控制策略,将静态障碍物碰撞影响降低50%,行人碰撞影响也降低50%,尽管碰撞频率相似或略高。
- 在14款难度较高的Atari游戏中,该方法在12款中表现优于QR-DQN,证明了其在复杂环境中的鲁棒性。
- 采用衰减调度能有效抑制内在不确定性,防止智能体在学习过程中偏好高方差动作。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。