[论文解读] Evolutionary Reinforcement Learning for Sample-Efficient Multiagent Coordination
本文提出多智能体进化强化学习(MERL),一种混合框架,通过神经演化方法解耦团队级稀疏奖励的优化,同时利用策略梯度方法进行智能体特定的密集奖励学习。通过在两个优化过程之间定期通过共享经验回放缓冲区转移策略,MERL 在无需人工奖励设计的情况下,实现了多智能体环境中的优越样本效率和协作性能,在具有挑战性的基准测试中优于最先进的方法(如MADDPG)。
Many cooperative multiagent reinforcement learning environments provide agents with a sparse team-based reward, as well as a dense agent-specific reward that incentivizes learning basic skills. Training policies solely on the team-based reward is often difficult due to its sparsity. Furthermore, relying solely on the agent-specific reward is sub-optimal because it usually does not capture the team coordination objective. A common approach is to use reward shaping to construct a proxy reward by combining the individual rewards. However, this requires manual tuning for each environment. We introduce Multiagent Evolutionary Reinforcement Learning (MERL), a split-level training platform that handles the two objectives separately through two optimization processes. An evolutionary algorithm maximizes the sparse team-based objective through neuroevolution on a population of teams. Concurrently, a gradient-based optimizer trains policies to only maximize the dense agent-specific rewards. The gradient-based policies are periodically added to the evolutionary population as a way of information transfer between the two optimization processes. This enables the evolutionary algorithm to use skills learned via the agent-specific rewards toward optimizing the global objective. Results demonstrate that MERL significantly outperforms state-of-the-art methods, such as MADDPG, on a number of difficult coordination benchmarks.
研究动机与目标
- 解决由于团队级稀疏奖励导致的合作多智能体强化学习(MARL)中样本效率低下的挑战。
- 克服仅依赖密集智能体特定奖励的局限性,后者无法捕捉团队协作目标。
- 消除对人工奖励设计或标量化方法的依赖,这些方法通常需要领域专业知识,且可能扭曲底层的MDP结构。
- 在基于梯度和无梯度的优化过程之间实现有效信息传递,以提升协作性能,而无需显式组合奖励。
- 开发一种可扩展的通用MARL框架,适用于现有方法失效的复杂协作任务。
提出的方法
- 采用分层训练框架:无梯度的进化算法(神经演化)用于优化稀疏的团队级奖励。
- 使用基于梯度的策略梯度方法(如基于TD3的算法)同时最大化密集的、智能体特定的奖励。
- 定期将训练好的策略梯度迁移至进化种群中,以传递已学习的基本技能。
- 在两种优化过程之间维护一个共享的经验回放缓冲区,以实现信息共享并提升样本效率。
- 应用条件选择机制评估迁移效果,确保仅保留有益的策略进入进化种群。
- 采用双层优化循环,其中进化过程演化团队协作策略,同时利用策略梯度方法预训练的技能。
实验结果
研究问题
- RQ1结合神经演化与策略梯度的混合优化框架是否能在无需奖励设计的情况下提升合作MARL的样本效率?
- RQ2基于梯度的策略学习者向进化种群传递信息,在增强团队协作方面有多有效?
- RQ3MERL在团队奖励稀疏而智能体奖励密集的环境中,是否优于最先进的MARL方法(如MADDPG)?
- RQ4MERL是否能扩展到现有方法无法学习的日益复杂的协作任务?
- RQ5条件迁移对进化选择过程及整体性能有何影响?
主要发现
- MERL在所有测试的协作基准任务中显著优于MADDPG及其基于TD3的增强变体,包括Keep-Away、Predator-Prey和Physical Deception。
- 在Keep-Away环境中,MERL的进化算法表现优于所有基线方法,而策略梯度方法表现不佳,表明MERL对稀疏奖励具有强鲁棒性。
- 在Predator-Prey任务中,迁移策略的条件选择率始终高于0.47的基线水平,表明被迁移的策略经常被选中,并对进化过程有实质性贡献。
- 在Physical Deception和Rover领域中,迁移策略提供了显著的初始优势,但其边际影响随时间推移而减弱,表明信息传递具有自适应性,能随种群动态演化。
- MERL在无需任何奖励设计或手动调参的情况下实现了卓越性能,证明其在多样化多智能体协作任务中的泛化能力。
- 该框架能平稳扩展至更高复杂度的协作任务,而MADDPG及其变体完全无法学习,凸显MERL的样本效率与鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。