Skip to main content
QUICK REVIEW

[論文レビュー] Risk-Constrained Reinforcement Learning with Percentile Risk Criteria

Yinlam Chow, Mohammad Ghavamzadeh|arXiv (Cornell University)|Dec 5, 2015
Reinforcement Learning in Robotics参考文献 40被引用数 54
ひとこと要約

本稿では、パcentileリスク基準、特にチャンス制約と条件付きリスク価値(CVaR)を用いたリスク制約付き強化学習のためのポリシー勾配法およびアクタクリティック法を提案する。ラグランジュ関数の勾配推定器を導出し、ポリシーと乗数の共同更新を可能にするとともに、リスク制約付きマルコフ決定過程において局所最適ポリシーへの収束を証明する。

ABSTRACT

In many sequential decision-making problems one is interested in minimizing an expected cumulative cost while taking into account \emph{risk}, i.e., increased awareness of events of small probability and high consequences. Accordingly, the objective of this paper is to present efficient reinforcement learning algorithms for risk-constrained Markov decision processes (MDPs), where risk is represented via a chance constraint or a constraint on the conditional value-at-risk (CVaR) of the cumulative cost. We collectively refer to such problems as percentile risk-constrained MDPs. Specifically, we first derive a formula for computing the gradient of the Lagrangian function for percentile risk-constrained MDPs. Then, we devise policy gradient and actor-critic algorithms that (1) estimate such gradient, (2) update the policy in the descent direction, and (3) update the Lagrange multiplier in the ascent direction. For these algorithms we prove convergence to locally optimal policies. Finally, we demonstrate the effectiveness of our algorithms in an optimal stopping problem and an online marketing application.

研究の動機と目的

  • リスクがチャンス制約またはCVaRによって定義されるリスク制約付きマルコフ決定過程(MDP)における強化学習のギャップを埋める。
  • 計算の tractability を維持しながら、パーセンタイルリスク基準を効率的かつスケーラブルに扱えるRLアルゴリズムを開発する。
  • リスク制約付き設定において、勾配ベースの手法を用いてポリシーとラグランジュ乗数を共同最適化可能にする。
  • 標準的な確率的近似仮定の下で、提案アルゴリズムの理論的収束保証を提供する。
  • まれだが高コストなイベントを伴う実世界の逐次意思決定問題における有効性を示す。

提案手法

  • リスク制約付きMDPをチャンス制約とCVaRをリスク指標として用いて定式化し、リスク認識を目的関数に統合する。
  • パーセンタイルリスク制約付きMDPにおけるラグランジュ関数の勾配を導出し、勾配ベースのポリシー最適化を可能にする。
  • ラグランジュ関数の勾配を推定し、負の勾配方向にポリシーを更新するポリシー勾配法を設計する。
  • 価値関数近似とポリシー勾配更新を組み合わせることで、サンプル効率を向上させるアクタクリティック法を開発する。
  • 3段階の時間スケール確率的近似スキームを実装:高速(ポリシーθ)、中程度(価値関数v)、最遅(ラグランジュ乗数λ)。
  • γ-占有測度を用いてバイアスのない勾配推定値を生成し、マルティングル差分誤差項により収束を保証する。

実験結果

リサーチクエスチョン

  • RQ1パーセンタイルリスク基準を用いたリスク制約付きMDPは、強化学習を用いてどのように効率的に定式化・解けるか?
  • RQ2CVaRおよびチャンス制約を含むリスク制約付きMDPにおけるラグランジュ関数の正しい勾配は何か?
  • RQ3ポリシー勾配法およびアクタクリティック法は、リスク制約付き設定において、ポリシーとラグランジュ乗数を共同で最適化するために適応可能か?
  • RQ4確率的近似の下で、このようなアルゴリズムにどのような収束保証を設定できるか?
  • RQ5提案されたアルゴリズムは、まれだが高コストなイベントを伴う実用的応用においてどのように性能を発揮するか?

主な発見

  • 提案されたポリシー勾配法およびアクタクリティック法は、標準的な確率的近似条件の下で、概収束的に局所最適ポリシーに収束する。
  • パーセンタイルリスク制約付きMDPにおけるラグランジュ関数の勾配が導出され、ポリシーと乗数の共同更新を可能にする。
  • 3段階時間スケール更新スキームにより、ポリシー、価値関数、ラグランジュ乗数の更新がそれぞれ独立に収束し、乗数の更新が最も遅い時間スケールで行われる。
  • 実証的結果から、最適停止問題およびオンラインマーケティング応用において、リスクニュートラルなベースラインを上回る性能を示し、特に尾部リスクの低減に優れている。
  • CVaRおよびチャンス制約を効果的に強制することで、稀に発生するが高コストなイベントを最小限に抑えることができる。
  • 理論的分析により、更新における誤差項がバイアスが消えるマルティングル差分であることが確認され、局所サドルポイントへの収束を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。