QUICK REVIEW

[論文レビュー] A Theory of Regularized Markov Decision Processes

Matthieu Geist, Bruno Scherrer|arXiv (Cornell University)|Jan 31, 2019

Adversarial Robustness in Machine Learning被引用数 85

ひとこと要約

本論文は、正則化されたMDPの一般理論を、正則化ベルマン演算子とレジャンドラン–フェルネ変換を用いて構築し、ミラー降下法とブレグマン発散に基づく単一の枠組みの下で、さまざまな正則化DP/MDPアルゴリズムを統合・分析する。

ABSTRACT

Many recent successful (deep) reinforcement learning algorithms make use of regularization, generally based on entropy or Kullback-Leibler divergence. We propose a general theory of regularized Markov Decision Processes that generalizes these approaches in two directions: we consider a larger class of regularizers, and we consider the general modified policy iteration approach, encompassing both policy iteration and value iteration. The core building blocks of this theory are a notion of regularized Bellman operator and the Legendre-Fenchel transform, a classical tool of convex optimization. This approach allows for error propagation analyses of general algorithmic schemes of which (possibly variants of) classical algorithms such as Trust Region Policy Optimization, Soft Q-learning, Stochastic Actor Critic or Dynamic Policy Programming are special cases. This also draws connections to proximal convex optimization, especially to Mirror Descent.

研究の動機と目的

正式な正則化ベルマン評価演算子とその性質を導入する
レジャンドラン–フェルネに基づく正則化最適性演算子と貪欲方策を開発する
正則化（近似）動的計画法スキームにおける誤差伝播を分析する
正則化MDPを凸最適化とミラー降下法へ結びつける
既存アルゴリズムが統一フレームワーク内の特殊ケースであることを示す

提案手法

ポリシー上で強凸の正則化子を用いた正則化ベルマン演算子を定義する
レジャンドラン–フェルネ変換を用いて正則化されたmax演算子とソフト貪欲方策を得る
正則化されたADPを正則化された修正方策反復法スキームに埋め込み、収束を分析する
正則化Q関数のモンテカルロまたはTDスタイルの実用的具体化を導入する
SAC、TRPO、DPP、MPOなどの実用アルゴリズムを特殊ケースとして関連付け、再現する
ミラー降下法の解釈とブレグマン発散を用いた2つのMD-MPIスキームへ拡張する

実験結果

リサーチクエスチョン

RQ1一般的な正則化がMDPの不動点と最適方策にどう影響するか？
RQ2統一オペレータ(framework)が正則化DPスキームの収束性と誤差伝播結果を導くことができるか？
RQ3既知のアルゴリズムは正則化MPI / ミラー降下の視点にどのようにはまるか？
RQ4正則化された値関数と方策と、正則化されていないものを比較する理論的保証は何か？

主な発見

正則化ベルマン演算子は、古典的演算子と同様の収縮性と単調性を保持する
正則化最適値関数は正則化最適性演算子の不動点であり、唯一の最適正則化方策を生み出す
正則化の境界は正則化値関数と非正則化値関数を関連づけ、偏差を制御したことを示す
reg MPIの誤差伝播境界はAMPIの結果を正則化設定へ拡張する
この枠組みは、統一理論の下でいくつかの最先端アルゴリズムを特殊ケースとして回復・説明する
ブレグマン発散の導入はミラー降下法の解釈を生み、TRPOやMPOのような既存アルゴリズムと結びつく

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。