Skip to main content
QUICK REVIEW

[論文レビュー] Global Convergence of Policy Gradient Methods to (Almost) Locally Optimal Policies

Kaiqing Zhang, Alec Koppel|arXiv (Cornell University)|Jun 19, 2019
Reinforcement Learning in Robotics参考文献 61被引用数 44
ひとこと要約

本論文は、ランダムホライゾン方策勾配法が無偏で無限ホライゾン勾配を推定し、定常点へ収束することを示し、鞍点を抜けて局所的に最適な方策へ近づくように周期的にステップサイズを大きくする修正RPGを導入し、倒立振子実験で検証している。

ABSTRACT

Policy gradient (PG) methods are a widely used reinforcement learning methodology in many applications such as video games, autonomous driving, and robotics. In spite of its empirical success, a rigorous understanding of the global convergence of PG methods is lacking in the literature. In this work, we close the gap by viewing PG methods from a nonconvex optimization perspective. In particular, we propose a new variant of PG methods for infinite-horizon problems that uses a random rollout horizon for the Monte-Carlo estimation of the policy gradient. This method then yields an unbiased estimate of the policy gradient with bounded variance, which enables the tools from nonconvex optimization to be applied to establish global convergence. Employing this perspective, we first recover the convergence results with rates to the stationary-point policies in the literature. More interestingly, motivated by advances in nonconvex optimization, we modify the proposed PG method by introducing periodically enlarged stepsizes. The modified algorithm is shown to escape saddle points under mild assumptions on the reward and the policy parameterization. Under a further strict saddle points assumption, this result establishes convergence to essentially locally-optimal policies of the underlying problem, and thus bridges the gap in existing literature on the convergence of PG methods. Results from experiments on the inverted pendulum are then provided to corroborate our theory, namely, by slightly reshaping the reward function to satisfy our assumption, unfavorable saddle points can be avoided and better limit points can be attained. Intriguingly, this empirical finding justifies the benefit of reward-reshaping from a nonconvex optimization perspective.

研究の動機と目的

  • Policy gradient法の無限ホライゾンMDPにおけるグローバル収束の厳密な理解を Motivate
  • 無偏な勾配推定を得るためのランダムホライゾン Monte-Carlo ロールアウトを導入
  • 方策勾配の収束を非凸最適化ツールと結びつけ、定常点への速度を確立
  • 周期的に拡張されるステップサイズを持つ修正版RPG(MRPG)を提案し、鞍点から脱し局所的にほぼ最適な方策へ収束させる
  • 非凸最適化の観点から報酬整形の利点を示し、実験で検証する

提案手法

  • ランダム幾何学的ロールアウトホライゾンを用いてQと方策勾配を無偏に推定するRPGを定義する
  • EstQとEstVのサブルーティンを提供し、有限ホライゾンのロールアウトを通じて無偏なQと価値推定を生成する
  • 無偏な方策勾配推定量(ベースライン/アドバンテージ変種を含む)を導出し、それらの有界性を証明する
  • スーパーマーチンゲール論を用いてRPGが定常点へ漸近収束することを証明する
  • 条件付き報酬とパラメータ設定の仮定の下で、周期的に拡張されるステップサイズを持つMRPGを提案し、鞍点を抜け出す
  • ベースラインを勾配分散の削減と収束性の改善に寄与させる方法を示す

実験結果

リサーチクエスチョン

  • RQ1ランダムホライゾン方策勾配法は漸近的に無限ホライゾン目的関数J(θ)の定常点へ収束しうるか?
  • RQ2どの条件下で方策勾配法は鞍点を脱出し、(概ね)二次定常点へ収束するか?
  • RQ3報酬整形と正規的な方策パラメータ化はRLにおける局所的最適方策の達成可能性に影響するか?
  • RQ4周期的に拡張されたステップサイズ戦略は非凸RL設定における収束特性を高めるか?

主な発見

  • ランダムホライゾンを持つRPGは無偏な勾配推定を生み出し、J(θ)の定常点へほぼ確実に収束する。
  • 有限サンプル解析は収束速度を示し、標準仮定の下でRLの定常学習率のコロラリを確立する。
  • 周期的に拡張されるステップサイズを持つMRPGは、 mildな報酬と正規性の仮定下で鞍点から脱出し、概ね二次的定常点へ収束できる。
  • 実務上、報酬整形は不利な鞍点を回避し、極限解を改善するのに役立つことを示し、非凸最適化の観点を経験的に支持する。
  • 勾配推定へのベースライン統合は分散を低減し、定常点への収束を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。