QUICK REVIEW

[论文解读] Distributional Reinforcement Learning for Efficient Exploration

Borislav Mavrin, Zhang, Shangtong|arXiv (Cornell University)|May 13, 2019

Target Tracking and Data Fusion in Sensor Networks被引用 30

一句话总结

该论文提出了一种新颖的深度强化学习探索方法，通过利用分布式Q-learning（QR-DQN）的值分布上侧分位数来计算探索奖励，并采用衰减调度以抑制内在不确定性。该方法在49款Atari游戏中相较QR-DQN平均获得483%的累积奖励提升，在CARLA 3D驾驶模拟器中安全奖励的学习速度提升一倍。

ABSTRACT

In distributional reinforcement learning (RL), the estimated distribution of value function models both the parametric and intrinsic uncertainties. We propose a novel and efficient exploration method for deep RL that has two components. The first is a decaying schedule to suppress the intrinsic uncertainty. The second is an exploration bonus calculated from the upper quantiles of the learned distribution. In Atari 2600 games, our method outperforms QR-DQN in 12 out of 14 hard games (achieving 483 \% average gain across 49 games in cumulative rewards over QR-DQN with a big win in Venture). We also compared our algorithm with QR-DQN in a challenging 3D driving simulator (CARLA). Results show that our algorithm achieves near-optimal safety rewards twice faster than QRDQN.

研究动机与目标

通过利用分布式强化学习所学习的值分布中的不确定性，解决深度强化学习中高效探索的挑战。
区分分布式值估计中的参数不确定性与内在不确定性，并抑制内在不确定性以提升探索效率。
利用值分布的上侧分位数开发一种计算轻量级的探索奖励机制，以促进乐观探索。
在具有挑战性的环境（包括Atari 2600和CARLA 3D驾驶模拟器）中，相比QR-DQN基线模型，实现更优的性能表现。
通过基于分位数的动作选择，实现在安全关键环境中的风险敏感行为，尤其在最小化碰撞影响方面表现更优。

提出的方法

使用分位数回归DQN（QR-DQN）学习状态-动作值函数的完整分布，以捕捉参数不确定性和内在不确定性。
应用衰减调度以随时间减少内在不确定性的影响，提升探索的稳定性。
基于学习到的值分布的上侧分位数（如0.95或0.99）计算探索奖励，以促进乐观动作选择。
利用Hoeffding不等式估计状态-动作值的高置信度上界，借助分位数估计量的渐近正态性。
实施截断方差估计以优化探索奖励，避免因重尾分布导致的过度估计。
在训练过程中将探索奖励与贪婪策略结合，实现在仅增加QR-DQN计算量的前提下实现高效探索。

实验结果

研究问题

RQ1QR-DQN中值分布的上侧分位数能否用于构建有效且高效的探索奖励？
RQ2如何抑制分布式值估计中的内在不确定性，以防止次优探索行为？
RQ3在自动驾驶模拟器等高风险环境中，基于分位数的动作选择是否能提升安全性和性能？
RQ4所提出方法在Atari 2600环境中是否能在累积奖励和样本效率方面超越采用ε-greedy探索的QR-DQN？
RQ5在复杂环境中，非对称值分布对探索和风险敏感策略学习有何影响？

主要发现

该方法在49款Atari游戏中相较QR-DQN平均获得483%的累积奖励提升，其中在游戏Venture中提升尤为显著，达到483%。
在CARLA 3D驾驶模拟器中，该方法实现近似最优安全奖励的速度是QR-DQN的两倍，显著提升了安全指标。
使用值分布的10%分位数（q₀.₁）进行动作选择，可实现平均1.35公里的车道偏离前行驶距离，而基于均值的选择仅能实现1.35公里，表明风险敏感性显著提升。
基于VaR(Q(s,a)₉₀%)的风险敏感策略相比基于均值的控制策略，将静态障碍物碰撞影响降低50%，行人碰撞影响也降低50%，尽管碰撞频率相似或略高。
在14款难度较高的Atari游戏中，该方法在12款中表现优于QR-DQN，证明了其在复杂环境中的鲁棒性。
采用衰减调度能有效抑制内在不确定性，防止智能体在学习过程中偏好高方差动作。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。