[论文解读] Proximal Policy Optimization with Evolutionary Mutations
POEM 在 PPO 的基础上通过基于 KL 发散新颖性的自适应进化变异来增强探索,并在若干 OpenAI Gym 任务上实现更高奖励。
Proximal Policy Optimization (PPO) is a widely used reinforcement learning algorithm known for its stability and sample efficiency, but it often suffers from premature convergence due to limited exploration. In this paper, we propose POEM (Proximal Policy Optimization with Evolutionary Mutations), a novel modification to PPO that introduces an adaptive exploration mechanism inspired by evolutionary algorithms. POEM enhances policy diversity by monitoring the Kullback-Leibler (KL) divergence between the current policy and a moving average of previous policies. When policy changes become minimal, indicating stagnation, POEM triggers an adaptive mutation of policy parameters to promote exploration. We evaluate POEM on four OpenAI Gym environments: CarRacing, MountainCar, BipedalWalker, and LunarLander. Through extensive fine-tuning using Bayesian optimization techniques and statistical testing using Welch's t-test, we find that POEM significantly outperforms PPO on three of the four tasks (BipedalWalker: t=-2.0642, p=0.0495; CarRacing: t=-6.3987, p=0.0002; MountainCar: t=-6.2431, p<0.0001), while performance on LunarLander is not statistically significant (t=-1.8707, p=0.0778). Our results highlight the potential of integrating evolutionary principles into policy gradient methods to overcome exploration-exploitation tradeoffs.
研究动机与目标
- 解决 PPO 中的探索-开发权衡问题的动机。
- 引入基于 KL 发散的自适应机制来触发策略变异。
- 在多样化的连续控制任务中对 POEM 与 PPO 进行对比评估。
- 在若干环境中展示统计显著的性能提升。
提出的方法
- 在当前策略与移动平均策略之间扩展 PPO 的自适应 KL 发散多样性监控。
- 当多样性低于阈值时,通过向策略参数注入自适应高斯噪声来触发进化变异。
- 使用总目标函数 L_total = L_PPO - lambda_div * D_KL(pi_theta || pi_hat) + alpha_vf * L_VF - alpha_ent * H(pi_theta)。
- 基于 D_KL 相对于阈值 delta 的短缺来调整变异强度 sigma,并有选择地接受能提升 L_total 的变异。
- 通过 Optuna 在各环境中进行超参数调优,随后进行长时间的最终训练并进行确定性评估。

实验结果
研究问题
- RQ1引入基于 KL 发散的自适应变异是否能在多样化控制任务中提升 PPO 的性能?
- RQ2相较于标准 PPO,POEM 如何在探索与开发之间取得平衡?
- RQ3在确定性种子下,任务间的性能提升是否具有统计显著性?
主要发现
| Environment | POEM | PPO |
|---|---|---|
| CarRacing-v3 | 640.01 | -610.83 |
| MountainCarContinuous-v0 | 93.52 | -311.75 |
| BipedalWalker-v3 | 180.58 | 62.43 |
| LunarLander-v3 | 242.10 | 210.94 |
- POEM 在 CarRacing、MountainCar 和 BipedalWalker 上显著优于 PPO,p 值分别为 0.0002、<0.0001 和 0.0495。
- 在 LunarLander 上,POEM 相对于 PPO 未达到统计显著性(p = 0.0778)。
- 在每个环境的 15 次评估回合中,POEM 相对于 PPO 在大多数运行中获得更高的平均奖励,并呈现更快、更加稳定的学习曲线。
- 最终平均奖励:CarRacing 640.01(POEM)对 -610.83(PPO);MountainCar 93.52 对 -311.75;BipedalWalker 180.58 对 62.43;LunarLander 242.10 对 210.94。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。