[论文解读] Is Centralized Training with Decentralized Execution Framework Centralized Enough for MARL?
引入 CADP,一个中心化建议与去中心化裁剪框架,通过在集中训练阶段实现显式的代理建议,并在去中心化执行阶段逐步裁剪通信来增强 CTDE,从而在多智能体强化学习 backbones 上提升性能。
Centralized Training with Decentralized Execution (CTDE) has recently emerged as a popular framework for cooperative Multi-Agent Reinforcement Learning (MARL), where agents can use additional global state information to guide training in a centralized way and make their own decisions only based on decentralized local policies. Despite the encouraging results achieved, CTDE makes an independence assumption on agent policies, which limits agents to adopt global cooperative information from each other during centralized training. Therefore, we argue that existing CTDE methods cannot fully utilize global information for training, leading to an inefficient joint-policy exploration and even suboptimal results. In this paper, we introduce a novel Centralized Advising and Decentralized Pruning (CADP) framework for multi-agent reinforcement learning, that not only enables an efficacious message exchange among agents during training but also guarantees the independent policies for execution. Firstly, CADP endows agents the explicit communication channel to seek and take advices from different agents for more centralized training. To further ensure the decentralized execution, we propose a smooth model pruning mechanism to progressively constraint the agent communication into a closed one without degradation in agent cooperation capability. Empirical evaluations on StarCraft II micromanagement and Google Research Football benchmarks demonstrate that the proposed framework achieves superior performance compared with the state-of-the-art counterparts. Our code will be made publicly available.
研究动机与目标
- 解释为何传统的 CTDE 在协作型多智能体强化学习中还不足够实现完全集中化。
- 提出 CADP,使在集中训练阶段能够进行显式的代理间建议。
- 通过裁剪机制确保执行阶段策略保持去中心化。
- 演示 CADP 与多种 MARL 主干与基准的兼容性。
提出的方法
- 引入一种显式的代理建议机制,使用交叉注意力聚合其他代理的认知与 v(建议)为每个代理形成的集体意图 z。
- 结合基于 GRU 的本地历史编码器和多层感知机(MLP)以产生将本地信息与集体信息结合的 Q 值。
- 实现一个模型自裁剪过程,通过强制一热编码的跨代理置信度并加入裁剪损失(KL 散度)逐步将 CADP(C) 转换为 CADP(D),以最小化对他人的依赖。
- 采用 TD 损失用于价值分解(VD),并支持如 QMIX、VDN、QPLEX、MAPPO 等主干,使 CADP 在策略模块层面实现框架无关性。
- 端到端训练,损失总和包括 TD 损失,以及在达到阈值时间步后加入的裁剪损失以鼓励去中心化。
- 提供伪代码和可视化示意(附录 D 与 E)以说明 CADP 的训练与裁剪过程。
实验结果
研究问题
- RQ1在具有挑战性的 MARL 任务中,CADP 是否优于传统的 CTDE 基线?
- RQ2CADP 是否能超越在训练阶段使用全局信息的师生式 CTDE 框架?
- RQ3CADP 是否与多种基于值的方法和基于策略的方法的 MARL 主干兼容?
- RQ4裁剪机制是否能够在不牺牲性能的情况下实现从集中的建议到完全去中心化执行的平滑过渡?
主要发现
| 方法 | 5m_vs_6m | corridor | 3s5z_vs_3s6z |
|---|---|---|---|
| VDN (CTDE) | 0.54 ± 0.09 | 0.65 ± 0.32 | 0.25 ± 0.18 |
| VDN (CADP) | 0.66 ± 0.07 | 0.72 ± 0.51 | 0.85 ± 0.20 |
| QMIX (CTDE) | 0.43 ± 0.13 | 0.70 ± 0.35 | 0.24 ± 0.36 |
| QMIX (CADP) | 0.68 ± 0.08 | 0.84 ± 0.03 | 0.93 ± 0.03 |
| QPLEX (CTDE) | 0.57 ± 0.13 | 0.20 ± 0.12 | 0.08 ± 0.11 |
| QPLEX (CADP) | 0.73 ± 0.04 | 0.37 ± 0.36 | 0.96 ± 0.02 |
| MAPPO (CTDE) | 0.85 ± 0.07 | 0.96 ± 0.03 | 0.35 ± 0.39 |
| MAPPO (CADP) | 0.97 ± 0.03 | 0.98 ± 0.02 | 0.90 ± 0.16 |
- CADP 在 hard/mixed StarCraft II (SMAC) 场景和 Google Research Football 基准上持续提升相对于 CTDE 基线的性能。
- CADP(C)(集中模型)和 CADP(D)(去中心化模型)在三个 SMAC 情景中达到接近或相同的性能,裁剪提升了去中心化结果。
- 在 GRF 基准中,CADP 明显优于 QMIX,并在师生引导效果较弱的场景表现出鲁棒性。
- 消融结果显示 CADP 的增益可迁移至基于值的方法(VDN、QMIX、QPLEX)和 MAPPO,确认了框架的通用性。
- 在不同视野范围的消融中,CADP 保持优越性能,去中心化模型收敛到接近集中模型的性能。
- 裁剪损失在时间步超过 T 时有效,且性能对一系列 alpha 值具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。