Skip to main content
QUICK REVIEW

[论文解读] Counterfactual Multi-Agent Reinforcement Learning with Graph Convolution Communication

Jianyu Su, Stephen Adams|arXiv (Cornell University)|Apr 1, 2020
Reinforcement Learning in Robotics参考文献 22被引用 20
一句话总结

本文提出CCOMA,一种多智能体强化学习框架,通过整合图卷积通信与反事实信用分配(COMA),使智能体能够通过定向通信和个性化奖励设计学习协作策略。该方法在动态和静态多智能体环境(包括交通路口和异构制造系统)中均优于最先进基线方法,同时实现了可解释的通信策略。

ABSTRACT

We consider a fully cooperative multi-agent system where agents cooperate to maximize a system's utility in a partial-observable environment. We propose that multi-agent systems must have the ability to (1) communicate and understand the inter-plays between agents and (2) correctly distribute rewards based on an individual agent's contribution. In contrast, most work in this setting considers only one of the above abilities. In this study, we develop an architecture that allows for communication among agents and tailors the system's reward for each individual agent. Our architecture represents agent communication through graph convolution and applies an existing credit assignment structure, counterfactual multi-agent policy gradient (COMA), to assist agents to learn communication by back-propagation. The flexibility of the graph structure enables our method to be applicable to a variety of multi-agent systems, e.g. dynamic systems that consist of varying numbers of agents and static systems with a fixed number of agents. We evaluate our method on a range of tasks, demonstrating the advantage of marrying communication with credit assignment. In the experiments, our proposed method yields better performance than the state-of-art methods, including COMA. Moreover, we show that the communication strategies offers us insights and interpretability of the system's cooperative policies.

研究动机与目标

  • 解决合作多智能体强化学习中智能体间通信与精确信用分配的双重挑战。
  • 通过灵活的图结构通信,使智能体能够理解彼此之间的相互作用。
  • 利用反事实推理为个体智能体定制奖励,提升学习效率与策略性能。
  • 在智能体数量可变的动态系统和固定智能体的静态系统中评估该框架。
  • 证明在所提出的训练范式下,学习到的通信策略具有意义且可解释。

提出的方法

  • 该框架使用图卷积网络(GCN)建模智能体交互,实现智能体间的定向、动态通信。
  • 采用具有反事实多智能体策略梯度(COMA)的集中式评论家,基于每个智能体对全局回报的贡献计算个性化奖励。
  • GCN通过处理智能体嵌入和消息传递,根据邻居信息更新每个智能体的隐藏状态。
  • 系统采用基于集中式评论家的策略梯度进行训练,该评论家依赖于联合状态和动作,支持反事实推理。
  • 通信通过反向传播端到端学习,使智能体能够自适应地选择通信对象。
  • 训练过程中应用课程学习,通过随机化初始智能体状态逐步增加环境复杂度。

实验结果

研究问题

  • RQ1图卷积通信是否能提升智能体数量可变的多智能体系统中的协作性能?
  • RQ2将反事实信用分配与自适应通信结合,是否能带来优于现有方法的性能?
  • RQ3在信用分配框架下,智能体能否学习到可解释且有意义的通信策略?
  • RQ4当环境复杂度增加(如初始状态随机化)时,该框架表现如何?
  • RQ5该方法能否泛化到需要高强度协调的异构多智能体系统?

主要发现

  • 在交通路口环境中,CCOMA优于COMA及其他SOTA方法,在静态与动态团队配置下均实现了更高的累积奖励。
  • 在制造环境中,CCOMA在平均累积利润方面优于COMA与带通信的IQL,证明其在复杂异构系统中的有效性。
  • 通过课程学习引入随机性后,COMA与带通信的IQL性能下降,但CCOMA保持稳定学习并最终收敛至高性能策略。
  • 对通信消息的分析表明,智能体学习到了结构化、与任务相关的通信策略,体现了可解释性与有意义的信息交换。
  • 具有反事实推理的集中式评论家实现了有效的信用分配,使智能体即使在无法获取完整状态信息的情况下也能学习最优动作。
  • 该框架在智能体数量和系统动态性各异的环境中均表现出鲁棒性与可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。