Skip to main content
QUICK REVIEW

[论文解读] Collaborative Evolutionary Reinforcement Learning

Shauharda Khadka, Somdeb Majumdar|arXiv (Cornell University)|May 2, 2019
Evolutionary Algorithms and Applications被引用 32
一句话总结

该论文提出协同进化强化学习(CERL),一种可扩展的框架,通过在共享的、动态演化的种群中结合多个基于TD3的智能体,采用不同的时间跨度超参数,实现协同探索与利用。通过动态分配计算资源给表现最佳的智能体,并利用神经进化生成一种涌现策略,CERL在性能上超越了单个智能体,在所有单个TD3智能体均失败的MuJoCo Humanoid基准任务中成功求解,展现出更优的样本效率和对超参数敏感度的鲁棒性。

ABSTRACT

Deep reinforcement learning algorithms have been successfully applied to a range of challenging control tasks. However, these methods typically struggle with achieving effective exploration and are extremely sensitive to the choice of hyperparameters. One reason is that most approaches use a noisy version of their operating policy to explore - thereby limiting the range of exploration. In this paper, we introduce Collaborative Evolutionary Reinforcement Learning (CERL), a scalable framework that comprises a portfolio of policies that simultaneously explore and exploit diverse regions of the solution space. A collection of learners - typically proven algorithms like TD3 - optimize over varying time-horizons leading to this diverse portfolio. All learners contribute to and use a shared replay buffer to achieve greater sample efficiency. Computational resources are dynamically distributed to favor the best learners as a form of online algorithm selection. Neuroevolution binds this entire process to generate a single emergent learner that exceeds the capabilities of any individual learner. Experiments in a range of continuous control benchmarks demonstrate that the emergent learner significantly outperforms its composite learners while remaining overall more sample-efficient - notably solving the Mujoco Humanoid benchmark where all of its composite learners (TD3) fail entirely in isolation.

研究动机与目标

  • 解决深度强化学习中持续存在的探索低效与超参数敏感性问题。
  • 开发一种可扩展的框架,实现在解空间不同区域的协同探索。
  • 通过动态资源分配实现在线算法选择,减少对人工超参数调优的依赖。
  • 利用神经进化将多个智能体整合为单一、涌现的策略,超越各组成部分的性能。
  • 在连续控制基准测试中提升样本效率与鲁棒性,特别是在Humanoid等难以求解的环境中。

提出的方法

  • CERL采用基于TD3的智能体组合,每个智能体使用不同的时间跨度超参数(例如,折扣率γ = 0.9, 0.99, 0.997, 0.9995)。
  • 所有智能体共享一个经验回放缓冲区,以实现集体利用并提升样本效率。
  • 资源管理器根据性能动态分配计算资源,实时优先支持表现最佳的智能体。
  • 神经进化并行运行,通过变异与交叉操作对智能体群体的策略参数进行演化。
  • 演化过程将整个系统绑定,生成一个整合所有组件优势的单一涌现策略。
  • 框架采用置信上界(UCB)策略实现在线算法选择,支持学习器的自适应优先级排序。

实验结果

研究问题

  • RQ1具有不同超参数的多个RL智能体组成的协作框架,是否能在连续控制任务中超越单个智能体?
  • RQ2在智能体之间动态分配资源,是否能提升样本效率与收敛鲁棒性?
  • RQ3神经进化是否能有效将多个RL智能体整合为一个更优的单一涌现策略?
  • RQ4CERL是否能解决如MuJoCo Humanoid这类单个TD3智能体完全失败的高难度探索问题?
  • RQ5与标准DRL方法相比,CERL是否降低了对超参数调优的敏感性?

主要发现

  • CERL成功求解了MuJoCo Humanoid基准任务,而所有单独训练的TD3智能体在该任务中完全失败。
  • 在四个基准中的三个,CERL的样本效率均优于所有单独的基于TD3的智能体,展现出更优的数据利用效率。
  • 在大多数任务中,资源管理器将最多的计算资源分配给L2智能体(γ = 0.99),与先前超参数调优结果一致。
  • 在Swimmer基准中,CERL动态将资源转向γ值更高的智能体(L3与L4),表明γ = 0.997与0.9995比γ = 0.99更有效,与结果中观察到的性能提升相符。
  • CERL在无需人工超参数调优的情况下实现稳健性能,表现出对不同环境中超参数选择的不敏感性。
  • 尽管在Walker2d等简单任务中CERL的样本效率低于理想超参数配置,但其最终性能可与最佳单个智能体相当,证明了最终收敛性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。