[论文解读] Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents
该论文将新颖性搜索(NS)与质量多样性(QD)探索相结合,并使用进化策略(ES)来改善深度强化学习的探索,生成 NS-ES、NSR-ES 和 NSRA-ES,在具有欺骗性或稀疏奖励的任务中优于 ES,同时保持 ES 的可扩展性。
Evolution strategies (ES) are a family of black-box optimization algorithms able to train deep neural networks roughly as well as Q-learning and policy gradient methods on challenging deep reinforcement learning (RL) problems, but are much faster (e.g. hours vs. days) because they parallelize better. However, many RL problems require directed exploration because they have reward functions that are sparse or deceptive (i.e. contain local optima), and it is unknown how to encourage such exploration with ES. Here we show that algorithms that have been invented to promote directed exploration in small-scale evolved neural networks via populations of exploring agents, specifically novelty search (NS) and quality diversity (QD) algorithms, can be hybridized with ES to improve its performance on sparse or deceptive deep RL tasks, while retaining scalability. Our experiments confirm that the resultant new algorithms, NS-ES and two QD algorithms, NSR-ES and NSRA-ES, avoid local optima encountered by ES to achieve higher performance on Atari and simulated robots learning to walk around a deceptive trap. This paper thus introduces a family of fast, scalable algorithms for reinforcement learning that are capable of directed exploration. It also adds this new family of exploration algorithms to the RL toolbox and raises the interesting possibility that analogous algorithms with multiple simultaneous paths of exploration might also combine well with existing RL algorithms outside ES.
研究动机与目标
- 激发在具有稀疏或欺骗性奖励的深度强化学习中进行定向探索的必要性。
- 介绍新颖性搜索(NS)和质量多样性(QD)如何与进化策略(ES)整合。
- 开发 NS-ES、NSR-ES 和 NSRA-ES,以实现规模化的基于群体的探索。
- 在高维任务(包括 Atari 和仿真机器人)上评估所提出的方法,以显示相对于 ES 的性能改进。
提出的方法
- 将 ES 表示为对网络参数总体分布的梯度上升。
- 引入 NS-ES,以相对于行为档案最大化期望新颖性。
- 通过秩归一化平滑平均将新颖性与奖励信号结合,扩展为 NSR-ES。
- 开发 NSRA-ES,在新颖性与奖励之间实现自适应权重 w,以在探索与开发之间取得平衡。
- 使用由 M 个代理组成的元人群,基于新颖性进行概率选择以进行更新。
- 提供算法细节和适用于大规模深度神经网络的可并行实现。
实验结果
研究问题
- RQ1新颖性寻求策略(NS 和 QD)是否能够在稀疏/欺骗性 RL 任务上提升 ES 的性能,同时不牺牲可扩展性?
- RQ2NS-ES、NSR-ES 和 NSRA-ES 是否能够避免将 ES 在高维领域困在局部最优解?
- RQ3在新颖性与奖励之间自适应加权的 NSRA-ES 是否在多样化环境中提供稳健的性能?
主要发现
- NS-ES 以及两个 QD-ES 变体(NSR-ES、NSRA-ES)能够避免将 ES 困在局部最优解的情况,并在 Atari 与仿真步行任务上取得更高的性能。
- NS-ES 在某些设定中仅使用新颖性即可解决人形体运动问题,尽管忽略奖励信号。
- NSR-ES 通过在保持新颖性收益的同时引入奖励来加速学习;NSRA-ES 通过自适应加权新颖性和奖励,往往带来最佳的总体性能。
- 在 Atari 实验中,NS-ES,尤其是 NSRA-ES,在多款游戏中优于 ES,并在多次运行的中位奖励方面与传统探索方法如 DQN 和 A3C+ 相竞争甚至超越。
- NSRA-ES 通过自适应探索强度表现出鲁棒性;在评估的游戏多数中获得比 ES 更高的中位奖励(8/12 对比 NSRA-ES,9/12 对比 NSR-ES)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。