[论文解读] Evolution-Guided Policy Gradient in Reinforcement Learning
ERL 将进化算法与深度强化学习混合,以提供多样化体验和基于梯度的学习,在连续控制任务中比纯 DRL 或 EA 拥有更高的样本效率和更好的性能。
Deep Reinforcement Learning (DRL) algorithms have been successfully applied to a range of challenging control tasks. However, these methods typically suffer from three core difficulties: temporal credit assignment with sparse rewards, lack of effective exploration, and brittle convergence properties that are extremely sensitive to hyperparameters. Collectively, these challenges severely limit the applicability of these approaches to real-world problems. Evolutionary Algorithms (EAs), a class of black box optimization techniques inspired by natural evolution, are well suited to address each of these three challenges. However, EAs typically suffer from high sample complexity and struggle to solve problems that require optimization of a large number of parameters. In this paper, we introduce Evolutionary Reinforcement Learning (ERL), a hybrid algorithm that leverages the population of an EA to provide diversified data to train an RL agent, and reinserts the RL agent into the EA population periodically to inject gradient information into the EA. ERL inherits EA's ability of temporal credit assignment with a fitness metric, effective exploration with a diverse set of policies, and stability of a population-based approach and complements it with off-policy DRL's ability to leverage gradients for higher sample efficiency and faster learning. Experiments in a range of challenging continuous control benchmarks demonstrate that ERL significantly outperforms prior DRL and EA methods.
研究动机与目标
- 解决强化学习中的稀疏奖励与长时间跨度的问题。
- 利用进化群体多样性为强化学习代理生成多样化的经验。
- 将基于梯度的学习注入进化循环并同步回以提高鲁棒性。
- 通过基于群体的方法在保持稳定性的同时提高样本效率。
提出的方法
- 维护一个包含多种 actor 网络的群体,以及一个带目标网络的单独 RL actor-critic(DDPG)。
- 使用整集适应度来选择并进化 actor,通过交叉和变异形成下一代。
- 将群体的所有经验存储到共享重放缓冲区,并通过梯度下降训练评估器和 RL actor。
- 定期将最佳的 RL actor 同步回进化群体以引导进化(拉马克传递)。
- 在动作空间为 RL actor 使用 Ornstein-Uhlenbeck 噪声进行探索,以补充群体在参数空间的探索。
- 提供基于 DDPG 构建的 ERL 的详细算法和超参数,重点是重放缓冲区复用和定期同步。
实验结果
研究问题
- RQ1进化强化学习(ERL)是否在连续控制任务上优于标准的 DRL(DDPG、PPO)和 EA?
- RQ2选择算子和基于群体的多样性对 ERL 的性能有多关键?
- RQ3将 RL actor 同步回 EA 群体对学习稳定性和样本效率有何影响?
- RQ4ERL 是否能够克服奖励稀疏或误导性奖励的环境,而纯梯度方法难以应对?
主要发现
| 环境 | 精英 | 选择 | 丢弃 |
|---|---|---|---|
| Half-Cheetah | 83.8±9.3% | 14.3±9.1% | 2.3±2.5% |
| Swimmer | 4.0±2.8% | 20.3±18.1% | 76.0±20.4% |
| Reacher | 68.3±9.9% | 19.7±6.9% | 9.0±6.9% |
| Ant | 66.7±1.7% | 15.0±1.4% | 18.0±0.8% |
| Hopper | 28.7±8.5% | 33.7±4.1% | 37.7±4.5% |
| Walker-2d | 38.5±1.5% | 39.0±1.9% | 22.5±0.5% |
- ERL 在六个 Mujoco 连续控制任务上显著优于此前的 DRL 和 EA 方法。
- ERL 在 Ant 基准上学习,DDPG 通常失败,并且通常优于 EA,除了 Swimmer 时两者相近。
- 消融研究表明移除选择算子会显著降低性能,强调其在维持鲁棒学习中的重要性。
- 将 RL actor 同步回群体提供建设性引导并提高稳定性,ERL 的实际墙钟时间平均仅比 DDPG 多约3%。
- ERL 利用共享重放缓冲区最大化跨群体经验的信息提取,提升样本效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。