Skip to main content
QUICK REVIEW

[論文レビュー] Proximal Policy Optimization with Evolutionary Mutations

Casimir Czworkowski, Stephen Hornish|arXiv (Cornell University)|Jan 21, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

POEM は KL 発散の新規性に基づく適応的進化的突然変異を導入して探索を改善し、いくつかの OpenAI Gym タスクでより高い報酬を達成するよう PPO を拡張します。

ABSTRACT

Proximal Policy Optimization (PPO) is a widely used reinforcement learning algorithm known for its stability and sample efficiency, but it often suffers from premature convergence due to limited exploration. In this paper, we propose POEM (Proximal Policy Optimization with Evolutionary Mutations), a novel modification to PPO that introduces an adaptive exploration mechanism inspired by evolutionary algorithms. POEM enhances policy diversity by monitoring the Kullback-Leibler (KL) divergence between the current policy and a moving average of previous policies. When policy changes become minimal, indicating stagnation, POEM triggers an adaptive mutation of policy parameters to promote exploration. We evaluate POEM on four OpenAI Gym environments: CarRacing, MountainCar, BipedalWalker, and LunarLander. Through extensive fine-tuning using Bayesian optimization techniques and statistical testing using Welch's t-test, we find that POEM significantly outperforms PPO on three of the four tasks (BipedalWalker: t=-2.0642, p=0.0495; CarRacing: t=-6.3987, p=0.0002; MountainCar: t=-6.2431, p<0.0001), while performance on LunarLander is not statistically significant (t=-1.8707, p=0.0778). Our results highlight the potential of integrating evolutionary principles into policy gradient methods to overcome exploration-exploitation tradeoffs.

研究の動機と目的

  • PPO における探索-利用のトレードオフの課題に取り組む動機づけ。
  • KL 発散に基づく適応的な機構を導入してポリシー突然変異をトリガーする。
  • POEM を diverse な連続制御タスクで PPO と比較評価する。
  • いくつかの環境で統計的に有意な性能向上を実証する。

提案手法

  • 現在のポリシーと移動平均ポリシー間の適応的 KL 発散ダイバーシティモニターを PPO に拡張する。
  • ダイバーシティが閾値を下回ったときに適応的ガウスノイズをポリシーパラメータへ注入して進化的突然変異をトリガーする。
  • 総目的関数 L_total = L_PPO - lambda_div * D_KL(pi_theta || pi_hat) + alpha_vf * L_VF - alpha_ent * H(pi_theta) を使用する。
  • D_KL が閾値 delta に対して不足する短fall に基づいて突然変異強度 sigma を適応させ、L_total を改善する突然変異のみを選択的に受理する。
  • Optuna を用いた環境間のハイパーパラメータ調整の後、長期の最終トレーニング実行と決定論的評価を行う。
(a) POEM CarRacing-v3
(a) POEM CarRacing-v3

実験結果

リサーチクエスチョン

  • RQ1KL 発散ベースの適応的突然変異を導入することで、さまざまな制御タスクにおける PPO の性能は改善されるか?
  • RQ2POEM は標準の PPO と比べて探索と利用のバランスをどのように取るか?
  • RQ3決定論的なシードを用いた場合、タスク間で性能向上は統計的に有意か?

主な発見

EnvironmentPOEMPPO
CarRacing-v3640.01-610.83
MountainCarContinuous-v093.52-311.75
BipedalWalker-v3180.5862.43
LunarLander-v3242.10210.94
  • POEM は CarRacing、MountainCar、BipedalWalker で PPO を有意に上回り、p 値はそれぞれ 0.0002、<0.0001、0.0495。
  • LunarLander では PPO と比較して統計的有意性を得られなかった(p = 0.0778)。
  • 環境ごとに 15 エピソードの評価で、POEM はほとんどの試行で平均報酬を PPO より高く、学習曲線をより速く、安定させる。
  • 最終的な平均報酬: CarRacing 640.01 (POEM) 対 -610.83 (PPO); MountainCar 93.52 対 -311.75; BipedalWalker 180.58 対 62.43; LunarLander 242.10 対 210.94。
(b) PPO CarRacing-v3
(b) PPO CarRacing-v3

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。