QUICK REVIEW

[论文解读] PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Perttu Hämäläinen, Amin Babadi|arXiv (Cornell University)|Oct 5, 2018

Reinforcement Learning in Robotics被引用 10

一句话总结

本文提出PPO-CMA，一种新型的近端策略优化（PPO）变体，通过借鉴CMA-ES的协方差矩阵自适应机制，动态调节探索方差。通过引入进化路径和秩-μ启发式策略，PPO-CMA在连续控制任务中加速了收敛速度，降低了对超参数的敏感性，并在Roboschool和MuJoCo基准测试中优于标准PPO，且无需进行大量调参。

ABSTRACT

Proximal Policy Optimization (PPO) is a highly popular model-free reinforcement learning (RL) approach. However, we observe that in a continuous action space, PPO can prematurely shrink the exploration variance, which leads to slow progress and may make the algorithm prone to getting stuck in local optima. Drawing inspiration from CMA-ES, a black-box evolutionary optimization method designed for robustness in similar situations, we propose PPO-CMA, a proximal policy optimization approach that adaptively expands the exploration variance to speed up progress. With only minor changes to PPO, our algorithm considerably improves performance in Roboschool continuous control benchmarks. Our results also show that PPO-CMA, as opposed to PPO, is significantly less sensitive to the choice of hyperparameters, allowing one to use it in complex movement optimization tasks without requiring tedious tuning.

研究动机与目标

为解决PPO中探索方差过早收缩的问题，该问题会减缓收敛速度并增加陷入局部最优的风险，尤其在连续控制任务中。
提升复杂运动控制任务中无模型强化学习的样本效率和收敛速度。
降低对超参数的敏感性，特别是裁剪参数ϵ和熵权重，以提升算法的通用性。
将CMA-ES启发的方差自适应机制集成到基于策略的PPO中，且仅需最小的网络架构修改。
在简单与复杂连续控制环境中验证性能提升与鲁棒性。

提出的方法

引入一个独立的神经网络头用于策略方差，将均值与方差的学习从策略网络中解耦。
将CMA-ES的秩-μ更新规则与进化路径启发式策略应用于方差更新，结合在线与离线经验进行更新。
使用大小为H的历史缓冲区存储过去的策略更新，实现在保持在线均值更新的同时，利用离线数据进行方差自适应。
采用优势镜像机制：将负优势转换为正优势，以在性能不佳时促进方差扩展。
使用广义优势估计（GAE）实现稳定的优势估计，并仅对策略均值更新应用裁剪的替代损失函数。
保留PPO的在线数据收集机制和每轮迭代中的多轮梯度更新，但将标准方差更新替换为CMA-ES启发的自适应机制。

实验结果

研究问题

RQ1PPO中是否存在因方差过早收缩而阻碍收敛的问题，尤其在连续控制任务中？
RQ2CMA-ES启发的方差自适应是否能提升PPO的学习速度与最终性能？
RQ3与标准PPO相比，PPO-CMA是否对超参数（如ϵ和熵权重）的敏感性更低？
RQ4在简单任务上调优的超参数是否能泛化到复杂环境（如MuJoCo Humanoid）？
RQ5PPO-CMA的各个组件（如优势镜像、进化路径、秩-μ更新）是否对性能提升有独立贡献？

主要发现

PPO-CMA在9个Roboschool环境中显著优于标准PPO，以更少的超参数调优实现了更高的归一化得分。
PPO-CMA对超参数的敏感性显著降低：在不同模拟预算N和历史缓冲区大小H下性能保持稳定，而标准PPO则需仔细权衡ϵ与N的取值。
在MuJoCo Humanoid-v2环境中，PPO-CMA表现出更优性能，尤其在增大模拟预算N时，显示出向复杂任务扩展的潜力。
消融实验表明，所有组件——优势镜像、进化路径和秩-μ更新——均对性能有贡献，完整PPO-CMA模型得分为1.0（基线），而消融版本仅得0.57。
PPO-CMA实现了准无超参数调优行为：一旦网络架构确定，仅需增加N即可应对更复杂任务，大幅减少调参需求。
该算法通过在进展停滞时动态扩展方差，成功避免了过早收敛，其行为与黑箱优化中CMA-ES的机制一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。