Skip to main content
QUICK REVIEW

[论文解读] What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study

Marcin Andrychowicz, Anton Raichuk|arXiv (Cornell University)|Jun 10, 2020
Reinforcement Learning in Robotics参考文献 26被引用 104
一句话总结

论文在一个统一的就策略强化学习框架中对超过50种设计选择进行了大规模实证研究,在五个连续控制环境中训练了超过250,000个代理,以确定实用建议。

ABSTRACT

In recent years, on-policy reinforcement learning (RL) has been successfully applied to many different continuous control tasks. While RL algorithms are often conceptually simple, their state-of-the-art implementations take numerous low- and high-level design decisions that strongly affect the performance of the resulting agents. Those choices are usually not extensively discussed in the literature, leading to discrepancy between published descriptions of algorithms and their implementations. This makes it hard to attribute progress in RL and slows down overall progress [Engstrom'20]. As a step towards filling that gap, we implement >50 such ``choices'' in a unified on-policy RL framework, allowing us to investigate their impact in a large-scale empirical study. We train over 250'000 agents in five continuous control environments of different complexity and provide insights and practical recommendations for on-policy training of RL agents.

研究动机与目标

  • 研究低层次和高层次实现选择如何影响就策略强化学习的性能。
  • 在统一的PPO-based框架中量化>50个可配置选项的影响。
  • 为实践者提供关于超参数、架构和训练设置的可操作指南。

提出的方法

  • 构建一个高度可配置的就策略代理,基于PPO,将可选项暴露为配置选项。
  • 在五个连续控制环境中训练超过250,000个代理以评估性能。
  • 通过分析配置组的95百分位性能并检查表现最好的配置来评估每个选择。
  • 使用两阶段分析来考虑相关选择之间的相互作用并确保结论的稳健性。

实验结果

研究问题

  • RQ1哪些低层次和高层次的设计选择对连续控制任务中的就策略强化学习性能影响最大?
  • RQ2与策略损失、网络架构、归一化、优势估计、训练设置、时间步处理、优化器和正则化相关的选择如何影响学习速度和最终性能?
  • RQ3在现实世界设置中实现就策略强化学习的从业者可以得出的实际建议有哪些?

主要发现

  • PPO策略损失在大多数环境中通常优于其他替代方案,截断阈值大约0.25是一个可靠的起点。
  • 将值网络和策略网络分离通常可提升性能,架构宽度和激活函数选择(tanh)显著影响结果;初始动作分布初始化对训练速度有强烈影响。
  • 输入归一化至关重要;值函数归一化在很大程度上取决于环境,梯度裁剪提供适度提升。
  • GAE 和 V-trace 用于优势估计的表现优于 N-step;PPO 风格的价值损失裁剪和 Huber 损失并非普遍有益。
  • 数据收集策略很重要:多次遍历经验并在每次数据传输时重新计算优势可提高样本效率;更多的并行环境在某些任务上可能不好,但在资源允许时可加速实际时间。
  • 使用带动量的 Adam 优化器和调优的学习率是稳健的默认选择;通过熵或 KL 惩罚的正则化收益有限或依赖于环境。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。