Skip to main content
QUICK REVIEW

[論文レビュー] Estimating Risk and Uncertainty in Deep Reinforcement Learning

William R. Clements, Bastien Van Delft|arXiv (Cornell University)|May 23, 2019
Reinforcement Learning in Robotics参考文献 59被引用数 55
ひとこと要約

この論文は、深層RLの報酬分布におけるエピステミック不確実性とアレータティック不確実性を識別・偏りなく推定する理論的フレームワークを提案し、不確実性を考慮したDQN(UA-DQN)を導入して安全な学習と性能を向上させる。

ABSTRACT

Reinforcement learning agents are faced with two types of uncertainty. Epistemic uncertainty stems from limited data and is useful for exploration, whereas aleatoric uncertainty arises from stochastic environments and must be accounted for in risk-sensitive applications. We highlight the challenges involved in simultaneously estimating both of them, and propose a framework for disentangling and estimating these uncertainties on learned Q-values. We derive unbiased estimators of these uncertainties and introduce an uncertainty-aware DQN algorithm, which we show exhibits safe learning behavior and outperforms other DQN variants on the MinAtar testbed.

研究の動機と目的

  • RLにおいてデータ制約で生じるエピステミック不確実性と、環境のランダム性によるアレータティック不確実性を区別して扱う必要性を動機づける。
  • 分布型RL内で学習されたQ値に対して、これらの不確実性を個別に推定する理論的フレームワークを開発する。
  • 量位点ネットワークのベイズ的解釈に基づき、両方の不確実性の偏りのない推定量を提供する。
  • 不確実性推定の実用的な利用を、不確実性を考慮したDQN(UA-DQN)に示し、安全性と性能を向上させる。

提案手法

  • N個の分位点を出力するニューラルネットワークによって報酬分布の分位点予測をモデル化し、分位点回帰損失で訓練する。
  • 非対称ラプラス分布に基づく尤度を用いたベイズ推定として分位点学習を位置づける。
  • エピステミック不確実性を事後サンプル上の分位点出力の分散として、アレータティック不確実性を事後平均分位点出力の分散として定義する。
  • ネットワーク重みの事後サンプルを2つだけ用いた両方の不確実性の偏りのない推定量を提案する(2つの補助ネットワーク)。
  • 総不確実性をエピステミックとアレータティックの和として分解し、偏りのなさを検証する(命題2.1–2.3)。
  • 補助ネットワークを用いて不確実性を推定し、リスク(アレータティック)と探索(エピステミック)に応じて行動選択を調整する UA-DQN を導入する。

実験結果

リサーチクエスチョン

  • RQ1分布型RLにおいてエピステミック不確実性とアレータティック不確実性を同時に区別し推定できるか?
  • RQ2実用的な枠組みの中で両方の不確実性の偏りのない推定量を導出できるか?
  • RQ3不確実性推定は深層Q学習におけるリスク感度のある意思決定と探索を改善するか?
  • RQ4不確実性を考慮したDQN(UA-DQN)は標準のQR-DQNや他のDQN変種をベンチマークタスクで上回るか?

主な発見

  • RLの報酬分布に対してエピステミックとアレータティック不確実性を区別する理論的フレームワークが開発された。
  • 両方の不確実性の偏りのない推定量が導出され、2つの事後重みサンプルと分布型分位点出力に依存している。
  • 提案フレームワークでは、報酬分布の総不確実性はエピステミックとアレータティックの和に等しい。
  • 2つの補助ネットワークは、不偏特性を持つ不確実性の実用的な推定を可能にする。
  • UA-DQNはアレータティック不確実性を用いてリスクの高い行動を抑制し、エピステミック不確実性を用いて探索を促進することで、安全性と探索を向上させる。
  • 実証結果は、MinAtarでUA-DQNがQR-DQNや他のDQN変種を上回り、風のあるグリッドワールドのリスクシナリオで安全な学習挙動を示すことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。