QUICK REVIEW

[论文解读] Phasic Policy Gradient

Karl Cobbe, Jacob Hilton|arXiv (Cornell University)|Sep 9, 2020

Reinforcement Learning in Robotics参考文献 20被引用 49

一句话总结

Phasic Policy Gradient (PPG) 将策略和价值函数训练分为两个交替阶段，在共享表示的同时减少干扰，相较 PPO 在 Procgen 基准测试上提升样本效率。它还引入一个灵活的辅助阶段，用于将价值函数信息蒸馏到策略网络。

ABSTRACT

We introduce Phasic Policy Gradient (PPG), a reinforcement learning framework which modifies traditional on-policy actor-critic methods by separating policy and value function training into distinct phases. In prior methods, one must choose between using a shared network or separate networks to represent the policy and value function. Using separate networks avoids interference between objectives, while using a shared network allows useful features to be shared. PPG is able to achieve the best of both worlds by splitting optimization into two phases, one that advances training and one that distills features. PPG also enables the value function to be more aggressively optimized with a higher level of sample reuse. Compared to PPO, we find that PPG significantly improves sample efficiency on the challenging Procgen Benchmark.

研究动机与目标

通过减少策略与价值函数目标之间的干扰，促进 on-policy actor-critic 方法的样本效率提升。
提出一种两阶段训练方案，在解耦优化的同时保留共享表示。
引入一个辅助蒸馏阶段，将价值函数知识传递到策略网络。
证明在 Procgen 环境中，使用 PPG 的解耦训练比 PPO 拥有更好的样本效率。

提出的方法

使用彼此独立的策略和价值函数网络以减少目标干扰。
策略阶段在带熵正则化的情况下优化 PPO 风格的裁剪代理目标。
辅助阶段通过联合优化一个辅助价值头和克隆目标来对齐策略，同时保持固定的价值目标来蒸馏特征。
辅助损失 L^{aux} 使用价值函数误差作为训练信号来改善策略的表征。
L^{joint} 将辅助损失与行为克隆项结合起来以防止策略漂移，由克隆系数控制。
包括超参数：N_{π}, E_{π}, E_{V}, E_{aux}, β_{clone}，并在辅助阶段保持固定的 V-targets。

实验结果

研究问题

RQ1将策略和价值函数优化解耦是否能减少干扰并在 on-policy 强化学习中提升样本效率？
RQ2策略和价值函数的独立优化如何与神经网络中的共享表示相互作用？
RQ3辅助阶段的频率和样本重用对学习效率和稳定性的影响是什么？
RQ4具有梯度分离的单网络变体是否能逼近双网络 PPG 架构的性能？

主要发现

PPG 在 Procgen 基准测试中的样本效率显著优于 PPO。
在解耦训练时，PPG 的策略样本重用收益有限；单个策略时期通常接近最优。
辅助阶段增加更多训练轮次通常有帮助，但到达某个点后收益递减，从而改善表征学习和价值估计。
频繁的辅助阶段由于干扰而损害策略优化；不频繁的辅助阶段更可取。
在研究设置下，PPG 的 KL 惩罚和裁剪目标带来相近的性能。
一个带梯度分离的单网络 PPG 变体与双网络性能接近，从而降低内存成本。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。