Skip to main content
QUICK REVIEW

[論文レビュー] A Theory of Regularized Markov Decision Processes

Matthieu Geist, Bruno Scherrer|arXiv (Cornell University)|Jan 31, 2019
Adversarial Robustness in Machine Learning被引用数 85
ひとこと要約

本論文は、正則化されたMDPの一般理論を、正則化ベルマン演算子とレジャンドラン–フェルネ変換を用いて構築し、ミラー降下法とブレグマン発散に基づく単一の枠組みの下で、さまざまな正則化DP/MDPアルゴリズムを統合・分析する。

ABSTRACT

Many recent successful (deep) reinforcement learning algorithms make use of regularization, generally based on entropy or Kullback-Leibler divergence. We propose a general theory of regularized Markov Decision Processes that generalizes these approaches in two directions: we consider a larger class of regularizers, and we consider the general modified policy iteration approach, encompassing both policy iteration and value iteration. The core building blocks of this theory are a notion of regularized Bellman operator and the Legendre-Fenchel transform, a classical tool of convex optimization. This approach allows for error propagation analyses of general algorithmic schemes of which (possibly variants of) classical algorithms such as Trust Region Policy Optimization, Soft Q-learning, Stochastic Actor Critic or Dynamic Policy Programming are special cases. This also draws connections to proximal convex optimization, especially to Mirror Descent.

研究の動機と目的

  • 正式な正則化ベルマン評価演算子とその性質を導入する
  • レジャンドラン–フェルネに基づく正則化最適性演算子と貪欲方策を開発する
  • 正則化(近似)動的計画法スキームにおける誤差伝播を分析する
  • 正則化MDPを凸最適化とミラー降下法へ結びつける
  • 既存アルゴリズムが統一フレームワーク内の特殊ケースであることを示す

提案手法

  • ポリシー上で強凸の正則化子を用いた正則化ベルマン演算子を定義する
  • レジャンドラン–フェルネ変換を用いて正則化されたmax演算子とソフト貪欲方策を得る
  • 正則化されたADPを正則化された修正方策反復法スキームに埋め込み、収束を分析する
  • 正則化Q関数のモンテカルロまたはTDスタイルの実用的具体化を導入する
  • SAC、TRPO、DPP、MPOなどの実用アルゴリズムを特殊ケースとして関連付け、再現する
  • ミラー降下法の解釈とブレグマン発散を用いた2つのMD-MPIスキームへ拡張する

実験結果

リサーチクエスチョン

  • RQ1一般的な正則化がMDPの不動点と最適方策にどう影響するか?
  • RQ2統一オペレータ(framework)が正則化DPスキームの収束性と誤差伝播結果を導くことができるか?
  • RQ3既知のアルゴリズムは正則化MPI / ミラー降下の視点にどのようにはまるか?
  • RQ4正則化された値関数と方策と、正則化されていないものを比較する理論的保証は何か?

主な発見

  • 正則化ベルマン演算子は、古典的演算子と同様の収縮性と単調性を保持する
  • 正則化最適値関数は正則化最適性演算子の不動点であり、唯一の最適正則化方策を生み出す
  • 正則化の境界は正則化値関数と非正則化値関数を関連づけ、偏差を制御したことを示す
  • reg MPIの誤差伝播境界はAMPIの結果を正則化設定へ拡張する
  • この枠組みは、統一理論の下でいくつかの最先端アルゴリズムを特殊ケースとして回復・説明する
  • ブレグマン発散の導入はミラー降下法の解釈を生み、TRPOやMPOのような既存アルゴリズムと結びつく

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。