QUICK REVIEW

[论文解读] Collaborative Evolutionary Reinforcement Learning

Shauharda Khadka, Somdeb Majumdar|arXiv (Cornell University)|May 2, 2019

Evolutionary Algorithms and Applications被引用 32

一句话总结

该论文提出协同进化强化学习（CERL），一种可扩展的框架，通过在共享的、动态演化的种群中结合多个基于TD3的智能体，采用不同的时间跨度超参数，实现协同探索与利用。通过动态分配计算资源给表现最佳的智能体，并利用神经进化生成一种涌现策略，CERL在性能上超越了单个智能体，在所有单个TD3智能体均失败的MuJoCo Humanoid基准任务中成功求解，展现出更优的样本效率和对超参数敏感度的鲁棒性。

ABSTRACT

Deep reinforcement learning algorithms have been successfully applied to a range of challenging control tasks. However, these methods typically struggle with achieving effective exploration and are extremely sensitive to the choice of hyperparameters. One reason is that most approaches use a noisy version of their operating policy to explore - thereby limiting the range of exploration. In this paper, we introduce Collaborative Evolutionary Reinforcement Learning (CERL), a scalable framework that comprises a portfolio of policies that simultaneously explore and exploit diverse regions of the solution space. A collection of learners - typically proven algorithms like TD3 - optimize over varying time-horizons leading to this diverse portfolio. All learners contribute to and use a shared replay buffer to achieve greater sample efficiency. Computational resources are dynamically distributed to favor the best learners as a form of online algorithm selection. Neuroevolution binds this entire process to generate a single emergent learner that exceeds the capabilities of any individual learner. Experiments in a range of continuous control benchmarks demonstrate that the emergent learner significantly outperforms its composite learners while remaining overall more sample-efficient - notably solving the Mujoco Humanoid benchmark where all of its composite learners (TD3) fail entirely in isolation.

研究动机与目标

解决深度强化学习中持续存在的探索低效与超参数敏感性问题。
开发一种可扩展的框架，实现在解空间不同区域的协同探索。
通过动态资源分配实现在线算法选择，减少对人工超参数调优的依赖。
利用神经进化将多个智能体整合为单一、涌现的策略，超越各组成部分的性能。
在连续控制基准测试中提升样本效率与鲁棒性，特别是在Humanoid等难以求解的环境中。

提出的方法

CERL采用基于TD3的智能体组合，每个智能体使用不同的时间跨度超参数（例如，折扣率γ = 0.9, 0.99, 0.997, 0.9995）。
所有智能体共享一个经验回放缓冲区，以实现集体利用并提升样本效率。
资源管理器根据性能动态分配计算资源，实时优先支持表现最佳的智能体。
神经进化并行运行，通过变异与交叉操作对智能体群体的策略参数进行演化。
演化过程将整个系统绑定，生成一个整合所有组件优势的单一涌现策略。
框架采用置信上界（UCB）策略实现在线算法选择，支持学习器的自适应优先级排序。

实验结果

研究问题

RQ1具有不同超参数的多个RL智能体组成的协作框架，是否能在连续控制任务中超越单个智能体？
RQ2在智能体之间动态分配资源，是否能提升样本效率与收敛鲁棒性？
RQ3神经进化是否能有效将多个RL智能体整合为一个更优的单一涌现策略？
RQ4CERL是否能解决如MuJoCo Humanoid这类单个TD3智能体完全失败的高难度探索问题？
RQ5与标准DRL方法相比，CERL是否降低了对超参数调优的敏感性？

主要发现

CERL成功求解了MuJoCo Humanoid基准任务，而所有单独训练的TD3智能体在该任务中完全失败。
在四个基准中的三个，CERL的样本效率均优于所有单独的基于TD3的智能体，展现出更优的数据利用效率。
在大多数任务中，资源管理器将最多的计算资源分配给L2智能体（γ = 0.99），与先前超参数调优结果一致。
在Swimmer基准中，CERL动态将资源转向γ值更高的智能体（L3与L4），表明γ = 0.997与0.9995比γ = 0.99更有效，与结果中观察到的性能提升相符。
CERL在无需人工超参数调优的情况下实现稳健性能，表现出对不同环境中超参数选择的不敏感性。
尽管在Walker2d等简单任务中CERL的样本效率低于理想超参数配置，但其最终性能可与最佳单个智能体相当，证明了最终收敛性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。