QUICK REVIEW

[论文解读] CM3: Cooperative Multi-goal Multi-stage Multi-agent Reinforcement Learning

Jiachen Yang, Alireza Nakhaei|arXiv (Cornell University)|Sep 13, 2018

Reinforcement Learning in Robotics参考文献 50被引用 23

一句话总结

CM3 提出了一种用于合作性多目标多智能体系统的两阶段课程强化学习框架，首先对单智能体目标达成进行预训练，随后再启用多智能体协作。该方法引入了一种局部化信用分配的信用函数，并通过函数增强技术在各阶段间传递知识，相较于基线 MARL 方法，在导航、交通协调和国际跳棋基准测试中实现了显著更快的学习速度。

ABSTRACT

A variety of cooperative multi-agent control problems require agents to achieve individual goals while contributing to collective success. This multi-goal multi-agent setting poses difficulties for recent algorithms, which primarily target settings with a single global reward, due to two new challenges: efficient exploration for learning both individual goal attainment and cooperation for others' success, and credit-assignment for interactions between actions and goals of different agents. To address both challenges, we restructure the problem into a novel two-stage curriculum, in which single-agent goal attainment is learned prior to learning multi-agent cooperation, and we derive a new multi-goal multi-agent policy gradient with a credit function for localized credit assignment. We use a function augmentation scheme to bridge value and policy functions across the curriculum. The complete architecture, called CM3, learns significantly faster than direct adaptations of existing algorithms on three challenging multi-goal multi-agent problems: cooperative navigation in difficult formations, negotiating multi-vehicle lane changes in the SUMO traffic simulator, and strategic cooperation in a Checkers environment.

研究动机与目标

为解决合作性多目标多智能体强化学习中的高效探索挑战，其中智能体需在个体目标达成与相互协作之间取得平衡。
解决多目标 MARL 中的信用分配问题，其中动作会影响多个智能体的成功，需进行细粒度归因。
在高维状态空间的复杂多智能体环境中，提升样本效率与学习速度。
开发一种模块化、可扩展的框架，通过课程学习与函数增强，复用单智能体策略实现多智能体协作。

提出的方法

CM3 采用两阶段课程：第一阶段使用演员-评论家网络，独立训练各智能体实现自身目标。
第二阶段以预训练策略初始化智能体，并启用多智能体协作，探索过程受第一阶段单智能体训练结果引导。
通过函数增强，将第一阶段的单智能体网络架构扩展至第二阶段，以支持多智能体观测与动作，最大限度减少参数重新训练。
从第一阶段评论家推导出一种新型信用函数，用于评估动作-目标对，实现在智能体间的局部化信用分配。
利用该信用函数重新定义策略梯度，以改善多智能体设置下的信用分配与策略更新。
该框架结合基于值函数与基于策略的学习方法，采用经验回放与目标网络，超参数根据环境进行调优。

实验结果

研究问题

RQ1当智能体必须同时学习个体目标与相互协作时，如何在多目标多智能体强化学习中实现高效探索？
RQ2两阶段课程学习方法（即在多智能体协调前先预训练单智能体目标达成）是否能提升样本效率与收敛速度？
RQ3在多目标 MARL 中，如何实现信用分配的局部化与结构化，以准确归因于某智能体的动作对另一智能体目标达成的影响？
RQ4函数增强在不引发灾难性遗忘或过度参数增长的前提下，能在多大程度上弥合单智能体与多智能体策略与价值函数之间的鸿沟？
RQ5所提出的 CM3 框架是否在复杂、高维的多目标多智能体环境中优于现有 MARL 基线方法？

主要发现

在具有复杂队形的协作导航任务中，CM3 的学习收敛速度显著快于 QMIX、COMA、IAC 和 QV 的直接适配方法，训练时间最多减少 80%。
在 SUMO 交通模拟器中，CM3 在双车道汇入场景中优于所有基线方法，成功率达更高，协调更平滑，碰撞更少。
在国际跳棋环境中，CM3 比基线方法更快学会战略协作，50,000 次训练步骤后胜率高出 25%。
两阶段课程通过让智能体优先聚焦于个体目标，降低了样本复杂度，从而在多智能体阶段实现更稳定高效的探索。
函数增强使 CM3 能以极少的额外参数复用第一阶段预训练网络，在保持性能的同时降低训练开销。
信用函数实现了对动作与目标达成之间影响的精确归因，提升了策略更新质量，减少了多智能体交互中的信用分配模糊性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。