QUICK REVIEW

[論文レビュー] PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Perttu Hämäläinen, Amin Babadi|arXiv (Cornell University)|Oct 5, 2018

Reinforcement Learning in Robotics被引用数 10

ひとこと要約

本稿では、CMA-ESにインspiredされた共分散行列適応を用いて、探索分散を動的に調整する新しいPPO変種PPO-CMAを提案する。進化経路とランク-μヒューリスティクスを統合することで、PPO-CMAは連続制御タスクにおける収束を加速し、ハイパーパramータへの感受性を低減し、微調整をほとんど必要とせずにRoboschoolおよびMuJoCoベンチマークで標準PPOを上回る性能を達成する。

ABSTRACT

Proximal Policy Optimization (PPO) is a highly popular model-free reinforcement learning (RL) approach. However, we observe that in a continuous action space, PPO can prematurely shrink the exploration variance, which leads to slow progress and may make the algorithm prone to getting stuck in local optima. Drawing inspiration from CMA-ES, a black-box evolutionary optimization method designed for robustness in similar situations, we propose PPO-CMA, a proximal policy optimization approach that adaptively expands the exploration variance to speed up progress. With only minor changes to PPO, our algorithm considerably improves performance in Roboschool continuous control benchmarks. Our results also show that PPO-CMA, as opposed to PPO, is significantly less sensitive to the choice of hyperparameters, allowing one to use it in complex movement optimization tasks without requiring tedious tuning.

研究の動機と目的

連続制御において、探索分散の早期収縮が収束を遅くし、局所最適解のリスクを高める問題に対処すること。
複雑な歩行タスクにおけるモデルフリーRLのサンプル効率と収束速度を向上させること。
特にクリッピングパラメータϵとエントロピー重み付けに対するハイパーパramータ感受性を低減し、より広範な利用可能性を実現すること。
CMA-ESにインスパイアされた分散適応を、最小限のアーキテクチャ変更でオンポリシーPPOに統合すること。
単純および複雑な連続制御環境において、性能向上とロバスト性を検証すること。

提案手法

ポリシーの平均と分散の学習を分離するため、別個のニューラルネットワークヘッドを導入し、ポリシーネットワークからの分散の学習を分離する。
CMA-ESのランク-μ更新則と進化経路ヒューリスティクスを適応させ、オンポリシーおよびオフポリシー経験を用いてポリシー分散を更新する。
過去のポリシー更新を格納する履歴バッファ（サイズH）を用い、オフポリシーデータを用いた分散適応を可能にしつつ、オンポリシー平均更新を維持する。
アドバンテージミラーリングを適用：性能が悪い際は負のアドバンテージを正のものに変換し、分散の拡大を促進する。
安定したアドバンテージ推定のため一般化アドバンテージ推定（GAE）を用い、クリッピング補助損失はポリシー平均更新にのみ適用する。
PPOのオンポリシーデータ収集と1イテレーションあたりの複数勾配ステップを維持するが、標準的な分散更新をCMA-ESにインスパイアされた適応的メカニズムに置き換える。

実験結果

リサーチクエスチョン

RQ1PPOにおける探索分散の早期収縮は、連続制御タスクの収束を妨げているか？
RQ2CMA-ESにインスパイアされた分散適応は、PPOの学習速度と最終的性能を向上させられるか？
RQ3標準PPOと比較して、PPO-CMAはϵやエントロピー重み付けといったハイパーパramータの選択に対して感受性が低いと期待できるか？
RQ4単純なタスクでチューニングされたハイパーパramータは、MuJoCo Humanoidのような複雑な環境へ一般化可能か？
RQ5PPO-CMAの個々の構成要素（例：ミラーリング、進化経路、ランク-μ）は、性能向上に独立して寄与しているか？

主な発見

PPO-CMAは9つのRoboschool環境において標準PPOを顕著に上回り、微調整をほとんど必要とせずに高い正規化スコアを達成する。
PPO-CMAはハイパーパramータ感受性が低く、シミュレーション予算Nや履歴バッファサイズHの広い範囲で性能が安定している。一方、PPOはϵとNのトレードオフを慎重に調整する必要がある。
MuJoCo Humanoid-v2環境では、PPO-CMAが優れた性能を発揮し、特にシミュレーション予算Nを増加させた場合に顕著に向上する。これは複雑なタスクへのスケーラビリティを示している。
アブレーションスタディの結果、アドバンテージミラーリング、進化経路、ランク-μ更新のすべての構成要素が性能向上に寄与していることが確認された。完全なPPO-CMAモデルはスコア1.0（ベースライン）、アブレーション版はスコア0.57にとどまる。
PPO-CMAは準パラメータフリーな挙動を達成する：ネットワークアーキテクチャが決定されれば、より難しいタスクに対してはNを増加させるだけでよく、広範なチューニングの必要がなくなる。
進捗が止まった際に動的に分散を拡大することで、PPO-CMAは早期収束を回避し、ブラックボックス最適化におけるCMA-ESの挙動を模倣している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。