QUICK REVIEW

[論文レビュー] Fast Global Convergence of Natural Policy Gradient Methods with Entropy Regularization

Shicong Cen, Cheng Chen|arXiv (Cornell University)|Jul 13, 2020

Reinforcement Learning in Robotics参考文献 58被引用数 41

ひとこと要約

この論文は、割引付き MDP におけるソフトマックスパラメータ化を用いたエントロピー正則化自然方策勾配法に対して、非漸近的で線形（局所的には二次）収束保証を示し、近似方策評価下での安定性も含めて扱う。

ABSTRACT

Natural policy gradient (NPG) methods are among the most widely used policy optimization algorithms in contemporary reinforcement learning. This class of methods is often applied in conjunction with entropy regularization -- an algorithmic scheme that encourages exploration -- and is closely related to soft policy iteration and trust region policy optimization. Despite the empirical success, the theoretical underpinnings for NPG methods remain limited even for the tabular setting. This paper develops $ extit{non-asymptotic}$ convergence guarantees for entropy-regularized NPG methods under softmax parameterization, focusing on discounted Markov decision processes (MDPs). Assuming access to exact policy evaluation, we demonstrate that the algorithm converges linearly -- or even quadratically once it enters a local region around the optimal policy -- when computing optimal value functions of the regularized MDP. Moreover, the algorithm is provably stable vis-à-vis inexactness of policy evaluation. Our convergence results accommodate a wide range of learning rates, and shed light upon the role of entropy regularization in enabling fast convergence.

研究の動機と目的

エントロピー正則化自然方策勾配法（NPG）を表形式の割引 MDP において理論的性能を動機づけ、理解する。
正確および近似の方策評価に対する非漸近的収束速度を確立する。
学習率を跨ぐエントロピー正則化が収束速度と安定性に与える影響を特徴づける。
急速な収束の可能性を示し、関連する方策最適化手法との比較を提供する。

提案手法

γ-割引 MDP の下でエントロピー正則化されたソフトマックスパラメータ化を用いたNPGを研究する。
正則化下のQτとソフトマックスとの閉形式の連関を示す方策空間での正確な更新則を導出する。
一般の学習率 η ∈ (0,(1−γ)/τ] に対して、正確な方策評価の非漸近的線形収束を証明する。
近似的な方策評価へ拡張し、評価の安定性とQ関数推定誤差に比例した誤差床を持つことを示す。
η = (1−γ)/τ の場合、局所領域に入った後は対数対数スケーリングで反復回数が O(log log(1/ε)) となり、局所領域での二次収束を示す。
TRPO、SPI および関連手法との比較と、線形収束を示すバンドイットの前置実験を提供する。

実験結果

リサーチクエスチョン

RQ1エントロピー正則化されたソフトマックスパラメータ化の下で、表形式の割引 MDP における自然方策勾配法の収束を加速できるか。
RQ2正確および近似のエントロピー正則化NPG法について、どの非漸近的収束速度（線形、二次）を保証できるか。
RQ3学習率と正則化パラメータが、方策評価が正確か近似かに関係なく、収束速度と安定性にどのように影響するか。
RQ4SPI や TRPO など既存手法に比べ、反復複雑性の点でエントロピー正則化がどのように改善をもたらすか。
RQ5近似Q関数の精度が全体の収束と誤差床に与える影響はどの程度か。

主な発見

エントロピー正則化されたNPGは、方策評価が正確な場合、最適なソフトQ関数とログ方策へ線形収束する。
η ∈ (0,(1−γ)/τ] に対して、正規化されたMDP で ε-最適性を達成する反復は (1/(ητ)) log(1/ε) でスケールする。
近似エントロピー正則化NPG は、ソフトQ関数推定の要素誤差が線形式で増大する誤差床まで線形収束を維持する。
小さい ε の領域では、η = (1−γ)/τ の更新が二次（超線形）収束を達成し、局所領域に入った後の反復複雑性は O(log log(1/ε)) のオーダーになる。
正則化なしのNPG（またはPG）と比較して、エントロピー正則化はより速い収束を可能にし、これまでの研究と比較して表形式の複雑さにギャップがあることを強調する。
バンドイットの前置は、エントロピー正則化NPG更新がソフトマックス最適方策へ線形収束することを示し、η = 1/τ の場合には単発収束の可能性も示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。