[论文解读] An Introduction to Centralized Training for Decentralized Execution in Cooperative Multi-Agent Reinforcement Learning
本文对协作多智能体强化学习中的集中训练-去中心化执行(CTDE)进行了综述,详细介绍了值函数分解方法(VDN、QMIX、QPLEX)和集中式 critic 方法(MADDPG、COMA、MAPPO),并讨论了集中式训练如何帮助去中心化执行。
Multi-agent reinforcement learning (MARL) has exploded in popularity in recent years. Many approaches have been developed but they can be divided into three main types: centralized training and execution (CTE), centralized training for decentralized execution (CTDE), and Decentralized training and execution (DTE). CTDE methods are the most common as they can use centralized information during training but execute in a decentralized manner -- using only information available to that agent during execution. CTDE is the only paradigm that requires a separate training phase where any available information (e.g., other agent policies, underlying states) can be used. As a result, they can be more scalable than CTE methods, do not require communication during execution, and can often perform well. CTDE fits most naturally with the cooperative case, but can be potentially applied in competitive or mixed settings depending on what information is assumed to be observed. This text is an introduction to CTDE in cooperative MARL. It is meant to explain the setting, basic concepts, and common methods. It does not cover all work in CTDE MARL as the subarea is quite extensive. I have included work that I believe is important for understanding the main concepts in the subarea and apologize to those that I have omitted.
研究动机与目标
- 用 Dec-POMDP 框架解释协作 MARL 问题。
- 综述并比较 CTDE 方法,包括值函数分解和集中式 critic。
- 讨论训练阶段集中信息的作用以及如何实现去中心化执行。
- 强调在选择去中心化与集中式 critic 及信息共享时的实际考虑因素。
提出的方法
- 给出 Dec-POMDP 形式化以定义协作 MARL 设置。
- 描述 CTDE 并将方法分为值函数分解(VDN、QMIX、QPLEX)和集中式 critic 方法(MADDPG、COMA、MAPPO)。
- 解释如何通过对 joint Q 函数进行值函数分解以在执行时获得去中心化的 Q 值。
- 详细介绍集中式 critic 的 actor-critic 方法,在训练期间由集中式 critic 指导去中心化 actor。
- 讨论将集中信息扩展到去中心化学习者以及将集中解决方案去中心化等扩展。

实验结果
研究问题
- RQ1在协作多智能体 RL 中有哪些主要的 CTDE 方法?它们在训练和执行阶段对信息的使用有何不同?
- RQ2值函数分解方法(如 VDN、QMIX、QPLEX)在概念上和实践中与集中式 critic 方法(如 MADDPG、COMA、MAPPO)有何比较?
- RQ3在 CTDE 中在去中心化 critic 与集中式 critic 之间进行选择时有哪些理论与实际考量?
- RQ4如何将集中信息融入去中心化学习者,如何将集中解决方案去中心化以用于执行?
- RQ5在可扩展性、协调与性能方面,CTDE 方法之间有哪些权衡?
主要发现
- CTDE 使在训练阶段利用集中信息成为可能,同时保持去中心化执行。
- 值函数分解方法将联合 Q 函数分解为逐智能体的分量,从而使去中心化的行为选择成为可能。
- QMIX 通过使用单调混合网络来扩展 VDN,并保持可行的 argmax 决策(IGM 属性)。
- 集中式 critic 方法(如 MADDPG、COMA、MAPPO)训练一个集中式值函数来指导去中心化的 actor。
- 报告讨论了基于状态的 critic 与基于历史的 critic,以及这对部分观测性和可扩展性的影响。
- 扩展包括将集中信息加入到去中心化学习者以及去集中化集中解决方案的努力。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。