QUICK REVIEW

[論文レビュー] A unified view of entropy-regularized Markov decision processes

Gergely Neu, Anders Jönsson|arXiv (Cornell University)|May 22, 2017

Reinforcement Learning in Robotics参考文献 8被引用数 97

ひとこと要約

この論文はエントロピーレギュレーションされた平均報酬MDPの凸最適化フレームワークを提示し、正規化されたベルマン方程式と正規化された平均報酬目的の間の双対性を示し、TRPOやMDP-E/DPPのようなアルゴリズムをMirror DescentまたはDual Averagingへ接続する。

ABSTRACT

We propose a general framework for entropy-regularized average-reward reinforcement learning in Markov decision processes (MDPs). Our approach is based on extending the linear-programming formulation of policy optimization in MDPs to accommodate convex regularization functions. Our key result is showing that using the conditional entropy of the joint state-action distributions as regularization yields a dual optimization problem closely resembling the Bellman optimality equations. This result enables us to formalize a number of state-of-the-art entropy-regularized reinforcement learning algorithms as approximate variants of Mirror Descent or Dual Averaging, and thus to argue about the convergence properties of these methods. In particular, we show that the exact version of the TRPO algorithm of Schulman et al. (2015) actually converges to the optimal policy, while the entropy-regularized policy gradient methods of Mnih et al. (2016) may fail to converge to a fixed point. Finally, we illustrate empirically the effects of using various regularization techniques on learning performance in a simple reinforcement learning setup.

研究の動機と目的

平均報酬MDPにおけるモデル不確実性と探索を扱うためのエントロピー正則化を動機づける。
線形計画法の定式化を凸正則化子へ拡張し、ベルマン方程式との双対関係を導出する。
エントロピーレギュラ化された強化学習アルゴリズムとオンライン凸最適化手法の結びつきを示す。
TRPOとエントロピー正則化方策勾配法の収束性に関する洞察を提供する。
異なる正則化技法が学習性能に与える実証的影響を示す。

提案手法

凸正則化子（相対エントロピーと条件エントロピー）を用いた正則化された平均報酬目的を定義する。
双対問題を導出し、双対の方程式が正則化されたベルマン最適性方程式に似ていることを示す。
凸性を証明し、正則化の下で最適な状態-行動分布と対応する価値関数を導出する。
既存アルゴリズム（REPS、TRPO、DPP、Mnih et al. 2016）をMirror DescentまたはDual Averagingの近似インスタンスとして解釈する。
TRPOの最適方策への厳密収束を確立し、エントロピー正則化された方策勾配法の非収束の可能性について議論する。

実験結果

リサーチクエスチョン

RQ1エントロピー正則化を平均報酬MDPの線形計画法フレームワークに組み込むにはどうすればよいか？
RQ2相対エントロピーや条件エントロピーのような凸正則化子を用いると、どのような双対関係が現れるか？
RQ3古典的な強化学習アルゴリズム（TRPO、DPP、A3C/MNIST風の手法）は、Mirror DescentまたはDual Averagingの見解の中でどのように適合するか？
RQ4これらの正則化手法が最適方策へ収束する条件は何か、あるいは収束に失敗する条件は何か？
RQ5異なる正則化子が単純なMDPにおける学習性能に及ぼす実証的影響は何か？

主な発見

条件エントロピーを用いた正則化目的の双対は、正則化されたベルマン最適性方程式を与える。
正確な更新を用いるTRPOは最適方策へ収束する（MDP-Eアルゴリズムと同等）。
エントロピー正則化された方策勾配法（例：A3C/Mnih et al. 2016）は、一般には固定点へ収束しない可能性がある。
DPPとTRPOは、正則化フレームワークの下でMirror Descentの近似インスタンスとして解釈できる。
このフレームワークは、近似によって導入される凸性の問題のために、ヒューリスティックな学習アルゴリズムに潜む不整合を浮き彫りにする。
実証的な結果は、異なる正則化スキームが単純なMDP設定で学習性能にどのように影響するかを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。