QUICK REVIEW

[论文解读] TarMAC: Targeted Multi-Agent Communication

Abhishek Das, Théophile Gervet|arXiv (Cornell University)|Oct 26, 2018

Reinforcement Learning in Robotics参考文献 9被引用 26

一句话总结

TarMAC 提出了一种面向多智能体强化学习的定向、多轮通信框架，其中智能体通过无监督的软注意力机制学习向特定接收者发送消息。该方法在多种环境（包括二维网格、交通路口和三维导航）的协作与竞争任务中，显著提升了性能与样本效率，具备可解释的注意力模式，并在混合设置中表现出强大的泛化能力。

ABSTRACT

We propose a targeted communication architecture for multi-agent reinforcement learning, where agents learn both what messages to send and whom to address them to while performing cooperative tasks in partially-observable environments. This targeting behavior is learnt solely from downstream task-specific reward without any communication supervision. We additionally augment this with a multi-round communication approach where agents coordinate via multiple rounds of communication before taking actions in the environment. We evaluate our approach on a diverse set of cooperative multi-agent tasks, of varying difficulties, with varying number of agents, in a variety of environments ranging from 2D grid layouts of shapes and simulated traffic junctions to 3D indoor environments, and demonstrate the benefits of targeted and multi-round communication. Moreover, we show that the targeted communication strategies learned by agents are interpretable and intuitive. Finally, we show that our architecture can be easily extended to mixed and competitive environments, leading to improved performance and sample complexity over recent state-of-the-art approaches.

研究动机与目标

使部分可观测环境中的智能体学会选择与谁通信，而非向所有智能体广播消息。
开发一种通过任务特定奖励隐式学习通信目标的通信机制，无需监督。
支持多轮通信以实现复杂推理，使智能体能够在时间步之间持久传递信息。
将框架扩展至混合与竞争环境，提升样本效率与性能。

提出的方法

智能体使用基于签名的软注意力机制：发送方在消息中嵌入目标键（消息接收者），接收方利用该键计算相关性。
注意力机制通过仅使用下游任务奖励的演员-评论家强化学习方法端到端训练。
智能体通过保持内部循环状态来支持多轮通信与持久的信息交换。
该架构支持集中训练、分散执行（CTDE），可扩展至大规模团队。
通过与 IC3Net 结合，将方法扩展至竞争环境，将消息平均机制替换为定向注意力。
使用连续向量表示的消息，使智能体能够发现任务特定的通信协议。

实验结果

研究问题

RQ1智能体能否在无显式通信监督的情况下学会将消息定向发送给特定接收者？
RQ2多轮、定向通信是否能提升复杂协作任务中的性能？
RQ3注意力机制能否产生可解释且直观的通信策略？
RQ4定向通信在竞争环境中如何影响样本效率与收敛性？
RQ5该框架能否在极少架构修改的前提下扩展至混合与竞争的多智能体设置？

主要发现

在 SHAPES 导航任务中，智能体学会了仅向消防员发送火灾相关消息，仅向排爆员发送炸弹相关消息，展现出直观且目标特定的定向通信。
在交通路口环境中，智能体能够自适应地将注意力集中于活跃智能体，即使团队规模变化，也表现出对动态团队构成的鲁棒性。
在 House3D 环境中，TarMAC 在 4 个智能体设置下达到 68.9% 的成功率，显著优于先前方法，在高维观测的复杂三维导航场景中表现突出。
在 Predator-Prey 混合环境中，IC3Net + TarMAC 相较于 IC3Net 单独使用，平均捕获时间减少了 14.5%（7.24 vs. 8.31 步），表明收敛更快且样本效率更高。
在 10 个智能体设置下，TarMAC 的多轮变体使捕获步数减少 30.5%（35.57 vs. 41.67），证实了迭代推理的益处。
注意力概率具有可解释性，清晰揭示了如将火灾警报定向发送给消防员、将炸弹警报发送给排爆员等明确通信模式。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。