[论文解读] Evolution Strategies as a Scalable Alternative to Reinforcement Learning
论文表明进化策略(ES)能够在 MuJoCo 和 Atari 任务上竞争性地训练神经网络策略,随着数千个 CPU 的并行几乎线性扩展,并且在没有反向传播或价值函数近似的情况下对帧跳变和长时域具有鲁棒性。
We explore the use of Evolution Strategies (ES), a class of black box optimization algorithms, as an alternative to popular MDP-based RL techniques such as Q-learning and Policy Gradients. Experiments on MuJoCo and Atari show that ES is a viable solution strategy that scales extremely well with the number of CPUs available: By using a novel communication strategy based on common random numbers, our ES implementation only needs to communicate scalars, making it possible to scale to over a thousand parallel workers. This allows us to solve 3D humanoid walking in 10 minutes and obtain competitive results on most Atari games after one hour of training. In addition, we highlight several advantages of ES as a black box optimization technique: it is invariant to action frequency and delayed rewards, tolerant of extremely long horizons, and does not need temporal discounting or value function approximation.
研究动机与目标
- 研究 ES 是否能成为传统 RL 方法(如 Q-learning 和策略梯度)的可行替代方案。
- 评估 ES 在分布式硬件上的可扩展性及其通信效率。
- 评估 ES 相对于最先进的 RL 基线在 MuJoCo 和 Atari 任务上的数据效率与性能。
- 探究网络参数化和动作/参数平滑对 ES 性能的影响。
提出的方法
- 将 ES 表述为一个自然进化策略,以策略参数的高斯扰动为特征。
- 使用得分函数估计器,通过对 ψ 的梯度来最大化 Eθ∼pψ[F(θ)],其中 θ 为均值参数。
- 实现一个并行、低带宽的 ES(算法2),使用公用随机数来同步扰动。
- 应用方差减少技术(对偶采样、适应度成形)和权重衰减。
- 研究虚拟批量归一化和动作离散化对探索和性能的影响。
实验结果
研究问题
- RQ1在具有挑战性的控制任务(MuJoCo、Atari)上,ES 是否能达到或超过基于梯度的 RL 方法?
- RQ2ES 相对于并行工作者数量和分布式硬件的扩展性如何?
- RQ3网络参数化和平滑对 ES 的有效性和探索性有何作用?
- RQ4在没有折扣或价值函数近似的情况下,ES 对延迟、帧跳变和长时域任务是否具鲁棒性?
主要发现
| 环境 | 25% | 50% | 75% | 100% |
|---|---|---|---|---|
| HalfCheetah | 0.15 | 0.49 | 0.42 | 0.58 |
| Hopper | 0.53 | 3.64 | 6.05 | 6.94 |
| InvertedDoublePendulum | 0.46 | 0.48 | 0.49 | 1.23 |
| InvertedPendulum | 0.28 | 0.52 | 0.78 | 0.88 |
| Swimmer | 0.56 | 0.47 | 0.53 | 0.30 |
| Walker2d | 0.41 | 5.69 | 8.02 | 7.88 |
- 在 MuJoCo 和 Atari 任务中,结合虚拟批量归一化及其他重参数化的 ES 能获得很强的性能。
- 在 1,440 名工作者下,ES 在 MuJoCo 3D Humanoid 任务中不到 10 分钟就解决,显示线性可扩展性。
- 在许多游戏中,ES 的最终 Atari 表现可与 A3C 相当,数据量多出 3–10 倍,但总体计算时间相近。
- 与 TRPO 等策略梯度方法相比,ES 展示了更广泛的探索(例如 MuJoCo humanoid 的多样步态)。
- 固定的超参数在 Atari 与 MuJoCo 环境中均能工作,强调了 ES 的鲁棒性及对调参需求的降低。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。