QUICK REVIEW

[论文解读] Learning Multiagent Communication with Backpropagation

Sainbayar Sukhbaatar, Arthur Szlam|arXiv (Cornell University)|May 25, 2016

Reinforcement Learning in Robotics参考文献 37被引用 276

一句话总结

CommNet 使协作代理之间实现连续、可微的通信，通过端到端的反向传播学习，在部分可观测的多智能体任务中提升性能。

ABSTRACT

Many tasks in AI require the collaboration of multiple agents. Typically, the communication protocol between agents is manually specified and not altered during training. In this paper we explore a simple neural model, called CommNet, that uses continuous communication for fully cooperative tasks. The model consists of multiple agents and the communication between them is learned alongside their policy. We apply this model to a diverse set of tasks, demonstrating the ability of the agents to learn to communicate amongst themselves, yielding improved performance over non-communicative agents and baselines. In some cases, it is possible to interpret the language devised by the agents, revealing simple but effective strategies for solving the task at hand.

研究动机与目标

激发并实现通信不是预设而是可学习的协作式多智能体任务。
引入一个简单的神经网络模型（CommNet），它使用与代理策略一起学习的连续通信。
在具有部分可观测性和动态代理数量的多样化任务中演示该方法。
展示在某些任务中学习通信模式的可解释性。

提出的方法

提出 CommNet，其中每个代理运行一个共享的神经模块，接收其自身状态和广播的连续通信向量。
定义一个带有多个通信步骤（K）的传播方案，其中每一步通过归一化求和来更新代理的隐藏状态并聚合其他代理的状态，以形成 c^i_j。
将局部连通、跳跃连接和时序递归（RNN/LSTM）等特殊情况形式化。
在有监督时通过反向传播端到端训练；否则根据需要使用带有策略梯度和基线的强化学习。
提供基线：Independent controllers、Fully-connected networks、和 Discrete communication methods 以进行比较。
将模型应用于包括拉杠游戏、基于 MazeBase 的交通路口和战斗场景，以及 bAbI 问答任务等，以测试它的通用性。

实验结果

研究问题

RQ1在部分可观测性下，代理能否共同学习一种改进协作的通信协议？
RQ2连续的、可微的通信是否比无通信或离散通信的基线表现更好？
RQ3随着动态代理数量和可见性变化，通信机制如何扩展？
RQ4在学习到的通信中会出现哪些可解释的结构或模式？
RQ5与强基线相比，CommNet 在多样化的多智能体任务（交通、战斗、QA）中的表现如何？

主要发现

在部分可见性任务中，CommNet 的表现优于独立控制器和全连接基线。
在拉杠任务中，CommNet 在有监督下接近完美的表现，在强化学习下表现也很强。
在交通路口实验中，CommNet 在 MLP、RNN、和 LSTM 模块上显著降低失败率，硬变体中局部连通表现最好。
在战斗任务中，CommNet 在不同队伍规模和可见性下持续提高胜率，常见地 LSTM 模块表现最好。
在 bAbI QA 任务中，CommNet 相较独立的 MLP 基线降低了平均错误，但在针对长篇故事推理的 MemN2N 上表现欠佳。
分析表明学习到的通信是稀疏但有意义的，存在对应任务相关事件的不同通信簇。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。