Skip to main content
QUICK REVIEW

[论文解读] Estimating Risk and Uncertainty in Deep Reinforcement Learning

William R. Clements, Bastien Van Delft|arXiv (Cornell University)|May 23, 2019
Reinforcement Learning in Robotics参考文献 59被引用 55
一句话总结

本论文提出一个理论框架,用于区分并无偏地估计深度强化学习中回报分布的 epistemic 与 aleatoric 不确定性,并引入一个不确定性感知的 DQN (UA-DQN),以提升安全学习和性能。

ABSTRACT

Reinforcement learning agents are faced with two types of uncertainty. Epistemic uncertainty stems from limited data and is useful for exploration, whereas aleatoric uncertainty arises from stochastic environments and must be accounted for in risk-sensitive applications. We highlight the challenges involved in simultaneously estimating both of them, and propose a framework for disentangling and estimating these uncertainties on learned Q-values. We derive unbiased estimators of these uncertainties and introduce an uncertainty-aware DQN algorithm, which we show exhibits safe learning behavior and outperforms other DQN variants on the MinAtar testbed.

研究动机与目标

  • 在强化学习中,动机是区分 epistemic 不确定性(数据受限)与 aleatoric 不确定性(环境随机性)的必要性。
  • 提出一个理论框架,在分布式RL中对学习到的Q值分别估计这两种不确定性。
  • 基于分位数网络的贝叶斯解释,为两种不确定性提供无偏估计量。
  • 展示不确定性估计在不确定性感知的DQN中的实际应用,提升安全性和性能。

提出的方法

  • 用一个输出N个分位数的神经网络来建模回报分布的分位数预测,并通过分位数回归损失进行训练。
  • 将分位数学习框架化为以非对称拉普拉斯分布为似然的贝叶斯推断。
  • 将 epistemic 不确定性定义为后验样本上分位数输出的方差,将 aleatoric 不确定性定义为后验均值分位数输出的方差。
  • 提出只使用两个网络权重后验样本(两个辅助网络)来估计两种不确定性的无偏估计量。
  • 将总不确定性分解为 epistemic 与 aleatoric 成分之和,并验证无偏性(命题 2.1–2.3)。
  • 引入 UA-DQN,它使用辅助网络来估计不确定性,并调整为风险(aleatoric)和探索(epistemic)而选择行动。

实验结果

研究问题

  • RQ1在分布式RL中,是否可以同时区分并估计 epistemic 与 aleatoric 不确定性?
  • RQ2是否能够在一个实用框架内推导出两种不确定性的无偏估计量?
  • RQ3不确定性估计是否能提升深度Q学习中的风险敏感决策和探索?
  • RQ4一个不确定性感知的DQN(UA-DQN)是否在基准任务上优于标准的QR-DQN及其他DQN变体?

主要发现

  • 开发了一个理论框架,用于在RL中的回报分布中区分 epistemic 与 aleatoric 不确定性。
  • 推导出两种不确定性的无偏估计量,依赖于两个后验权重样本和分布式分位数输出。
  • 在所提出的框架中,回报分布的总不确定性等于 epistemic 与 aleatoric 不确定性的和。
  • 两个辅助网络使得对不确定性的估计具有无偏性质,便于实际应用。
  • UA-DQN 利用 aleatoric 不确定性来惩罚风险行动,利用 epistemic 不确定性驱动探索,从而提高安全性和探索性。
  • 实证结果表明 UA-DQN 在 MinAtar 上优于 QR-DQN 及其他 DQN 变体,在风力格网世界风险情景中具有更安全的学习行为。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。