[论文解读] Collaborative Evolutionary Reinforcement Learning
该论文提出协同进化强化学习(CERL),一种可扩展的框架,通过在共享的、动态演化的种群中结合多个基于TD3的智能体,采用不同的时间跨度超参数,实现协同探索与利用。通过动态分配计算资源给表现最佳的智能体,并利用神经进化生成一种涌现策略,CERL在性能上超越了单个智能体,在所有单个TD3智能体均失败的MuJoCo Humanoid基准任务中成功求解,展现出更优的样本效率和对超参数敏感度的鲁棒性。
Deep reinforcement learning algorithms have been successfully applied to a range of challenging control tasks. However, these methods typically struggle with achieving effective exploration and are extremely sensitive to the choice of hyperparameters. One reason is that most approaches use a noisy version of their operating policy to explore - thereby limiting the range of exploration. In this paper, we introduce Collaborative Evolutionary Reinforcement Learning (CERL), a scalable framework that comprises a portfolio of policies that simultaneously explore and exploit diverse regions of the solution space. A collection of learners - typically proven algorithms like TD3 - optimize over varying time-horizons leading to this diverse portfolio. All learners contribute to and use a shared replay buffer to achieve greater sample efficiency. Computational resources are dynamically distributed to favor the best learners as a form of online algorithm selection. Neuroevolution binds this entire process to generate a single emergent learner that exceeds the capabilities of any individual learner. Experiments in a range of continuous control benchmarks demonstrate that the emergent learner significantly outperforms its composite learners while remaining overall more sample-efficient - notably solving the Mujoco Humanoid benchmark where all of its composite learners (TD3) fail entirely in isolation.
研究动机与目标
- 解决深度强化学习中持续存在的探索低效与超参数敏感性问题。
- 开发一种可扩展的框架,实现在解空间不同区域的协同探索。
- 通过动态资源分配实现在线算法选择,减少对人工超参数调优的依赖。
- 利用神经进化将多个智能体整合为单一、涌现的策略,超越各组成部分的性能。
- 在连续控制基准测试中提升样本效率与鲁棒性,特别是在Humanoid等难以求解的环境中。
提出的方法
- CERL采用基于TD3的智能体组合,每个智能体使用不同的时间跨度超参数(例如,折扣率γ = 0.9, 0.99, 0.997, 0.9995)。
- 所有智能体共享一个经验回放缓冲区,以实现集体利用并提升样本效率。
- 资源管理器根据性能动态分配计算资源,实时优先支持表现最佳的智能体。
- 神经进化并行运行,通过变异与交叉操作对智能体群体的策略参数进行演化。
- 演化过程将整个系统绑定,生成一个整合所有组件优势的单一涌现策略。
- 框架采用置信上界(UCB)策略实现在线算法选择,支持学习器的自适应优先级排序。
实验结果
研究问题
- RQ1具有不同超参数的多个RL智能体组成的协作框架,是否能在连续控制任务中超越单个智能体?
- RQ2在智能体之间动态分配资源,是否能提升样本效率与收敛鲁棒性?
- RQ3神经进化是否能有效将多个RL智能体整合为一个更优的单一涌现策略?
- RQ4CERL是否能解决如MuJoCo Humanoid这类单个TD3智能体完全失败的高难度探索问题?
- RQ5与标准DRL方法相比,CERL是否降低了对超参数调优的敏感性?
主要发现
- CERL成功求解了MuJoCo Humanoid基准任务,而所有单独训练的TD3智能体在该任务中完全失败。
- 在四个基准中的三个,CERL的样本效率均优于所有单独的基于TD3的智能体,展现出更优的数据利用效率。
- 在大多数任务中,资源管理器将最多的计算资源分配给L2智能体(γ = 0.99),与先前超参数调优结果一致。
- 在Swimmer基准中,CERL动态将资源转向γ值更高的智能体(L3与L4),表明γ = 0.997与0.9995比γ = 0.99更有效,与结果中观察到的性能提升相符。
- CERL在无需人工超参数调优的情况下实现稳健性能,表现出对不同环境中超参数选择的不敏感性。
- 尽管在Walker2d等简单任务中CERL的样本效率低于理想超参数配置,但其最终性能可与最佳单个智能体相当,证明了最终收敛性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。