[论文解读] The Uncertainty Bellman Equation and Exploration
引入 Uncertainty Bellman Equation (UBE),在时间上传播后验 Q 值的不确定性,促进深度探索;在将 epsilon-greedy 替换为对学习到的不确定性进行 Thompson sampling 时,实证提高了 Atari 上的 DQN 性能。
We consider the exploration/exploitation problem in reinforcement learning. For exploitation, it is well known that the Bellman equation connects the value at any time-step to the expected value at subsequent time-steps. In this paper we consider a similar extit{uncertainty} Bellman equation (UBE), which connects the uncertainty at any time-step to the expected uncertainties at subsequent time-steps, thereby extending the potential exploratory benefit of a policy beyond individual time-steps. We prove that the unique fixed point of the UBE yields an upper bound on the variance of the posterior distribution of the Q-values induced by any policy. This bound can be much tighter than traditional count-based bonuses that compound standard deviation rather than variance. Importantly, and unlike several existing approaches to optimism, this method scales naturally to large systems with complex generalization. Substituting our UBE-exploration strategy for $ε$-greedy improves DQN performance on 51 out of 57 games in the Atari suite.
研究动机与目标
- 激发并形式化通过不确定性传播进行强化学习中的探索。
- 定义 Uncertainty Bellman Equation (UBE) 并确立其不动点性质。
- 提出实用方法来估计局部不确定性并将 UBE 融入深度强化学习。
- 验证在 Atari 上,基于 UBE 的探索相较于标准的 epsilon-greedy 策略的经验提升。
提出的方法
- 推导一个用于 Q 值后验方差的类 Bellman 方程(UBE),并证明其唯一不动点界定后验方差。
- 通过 Var_t( hat{mu}) 和 Var_t( hat{P}) 定义局部不确定性 nu,提供可计算的 var_t( hat{Q}) 上界。
- 求解 UBE 得到一个不确定性 u,使其对 Var_t( hat{Q}) 形成上界,并在类似 Thompson sampling 的动作选择中使用它(方程(3))。
- 描述在表格、线性和神经网络设置中对局部不确定性的实际估计,包括用于贝叶斯线性估计的 Sherman-Morrison-Woodbury 更新。
- 扩展到带有两个头的网络(Q 和不确定性)的深度强化学习,以及一个一步 UBE 探索算法(Algorithm 1)。
- 在 Atari 实验中将基于 UBE 的探索与基于计数的奖励和 epsilon-greedy 进行比较。
实验结果
研究问题
- RQ1Q 值的不确定性是否可以通过 Bellman 风格的递归(UBE)在时间上传播?
- RQ2求解 UBE 是否提供了对后验 Q 值方差的有意义的上界并提升探索效率?
- RQ3使用 UBE 启发的不确定性的实用深度强化学习算法是否能够在复杂环境中提升相对于标准探索策略的表现?
- RQ4在表格、线性和神经网络设置中,如何为基于 UBE 的探索估计局部不确定性?
主要发现
| 算法 | 均值 | 中位数 | > 人类 |
|---|---|---|---|
| DQN | 688.60 | 79.41 | 21 |
| DQN Intrinsic Motivation | 472.93 | 76.73 | 24 |
| DQN UBE 1-step | 776.40 | 94.54 | 26 |
| DQN UBE n-step | 439.88 | 126.41 | 35 |
- UBE 具有唯一的不动点,能够在任何策略下给出 Q 值后验方差的逐点上界。
- 与基于计数的奖励相比,UBE 基于的探索通过在时间步中传播不确定性,能够更高效地扩展到大型、可泛化的系统。
- 在 Atari 实验中,用对学习到的不确定性头部进行 Thompson sampling 代替 epsilon-greedy 能改善性能,其中 n-step UBE 变体在 57 个游戏中的 32 个游戏表现最佳。
- 可使用两头神经网络同时学习 Q 值和不确定性,计算开销极小(约 ~10% 帧率下降)。
- 该方法相较于 vanilla DQN 有显著提升,在基于内在动机的方法方面也具竞争力,在若干游戏中达到超越人类的表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。