QUICK REVIEW

[论文解读] Multi-Agent Common Knowledge Reinforcement Learning

Christian A. Schroeder de Witt, Jakob Foerster|arXiv (Cornell University)|Oct 27, 2018

Reinforcement Learning in Robotics参考文献 63被引用 51

一句话总结

本文提出了 MACKRL，一种分层的、完全去中心化的策略学习框架，利用代理群体之间的共通知识实现协同多智能体控制，而无需集中执行。在矩阵博弈和星际争霸II微管理任务上，它优于独立学习和联合行动基线。

ABSTRACT

Cooperative multi-agent reinforcement learning often requires decentralised policies, which severely limit the agents' ability to coordinate their behaviour. In this paper, we show that common knowledge between agents allows for complex decentralised coordination. Common knowledge arises naturally in a large number of decentralised cooperative multi-agent tasks, for example, when agents can reconstruct parts of each others' observations. Since agents an independently agree on their common knowledge, they can execute complex coordinated policies that condition on this knowledge in a fully decentralised fashion. We propose multi-agent common knowledge reinforcement learning (MACKRL), a novel stochastic actor-critic algorithm that learns a hierarchical policy tree. Higher levels in the hierarchy coordinate groups of agents by conditioning on their common knowledge, or delegate to lower levels with smaller subgroups but potentially richer common knowledge. The entire policy tree can be executed in a fully decentralised fashion. As the lowest policy tree level consists of independent policies for each agent, MACKRL reduces to independently learnt decentralised policies as a special case. We demonstrate that our method can exploit common knowledge for superior performance on complex decentralised coordination tasks, including a stochastic matrix game and challenging problems in StarCraft II unit micromanagement.

研究动机与目标

动机并形式化在去中心化协作多智能体强化学习中将共通知识作为协同信号的使用。
开发一个集中训练、去中心执行的算法（MACKRL），学习一个以共通知识为条件的层次策略树。
证明通过共通知识实现的协同在复杂任务上能获得更好的性能，同时保持去中心化执行。

提出的方法

提出一个带有层次策略树的随机策略梯度-价值（actor-critic）算法，通过共通知识协调代理群体。
定义一个对联合行动的策略，遍历一个子策略树 pi^G(u^G | I^G(t), xi) 的群组 G，较高层使用共通知识协调更大范围的群体。
允许将任务委托给子群体以实现全局协作与局部控制之间的权衡。
实现 Pairwise MACKRL，作为一个可扩展的三层层级结构：对偶对选择器、对偶对控制器和个体控制器；在对偶控制器之间共享参数以提高样本效率。
使用集中式评判（Central-V 风格）并采用 TD(lambda) 及可微的端到端训练框架来更新层级联合策略。

实验结果

研究问题

RQ1在独立学习困难的去中心化策略中，代理群体之间的共通知识是否能实现有效的协同？
RQ2MACKRL 如何在通过对共通知知进行分层条件化的同时，在完全联合行动协调与独立执行之间进行权衡？
RQ3相较于 IL、CK-JAL 和 JAL，在协同任务和大规模基准测试中，MACKRL 的性能提升有多大？
RQ4基于共通知识的协调在观测噪声和代理数量增加时的鲁棒性如何？

主要发现

MACKRL 在两代理矩阵博弈上优于独立行为者- critic（IAC）和 CK-JAL，并在共通知识增强时接近 JAL 的性能，同时保持去中心化。
在概率性共通知识设定下，MACKRL 可使用代理对共通知识的信念来运作，协同策略在观测噪声下衰减也能优雅地退化。
在星际争霸II 微管理基准（SMAC）上，MACKRL 在样本效率方面超越 Central-V、COMA 和 QMIX，最终性能具有竞争力。
对偶式 MACKRL 能扩展到多张地图，且代理数量不同，显示在 2s3z、3m、8m 地图上相较基线有更好的协同表现。
通过子采样对对偶划分集合进行扩展，协同覆盖率以可控方式下降，但仍实现较强的性能，显示对划分可用性的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。