QUICK REVIEW

[论文解读] Learning to Communicate in Multi-Agent Reinforcement Learning : A Review

Mohamed Salah Zaïem, Etienne Bennequin|arXiv (Cornell University)|Nov 13, 2019

Reinforcement Learning in Robotics被引用 3

一句话总结

本文综述了多智能体强化学习中的通信机制，重点关注基于深度循环Q网络（Deep Recurrent Q-Network）的模型，这些模型使智能体能够在部分可观察环境中学习协作性通信策略。本文提出了一种基于熵的新型度量方法，以独立于任务性能的方式评估通信协议的质量，并引入了一个四人版本的Pong环境，用于研究合作-竞争设置下的通信成本。

ABSTRACT

We consider the issue of multiple agents learning to communicate through reinforcement learning within partially observable environments, with a focus on information asymmetry in the second part of our work. We provide a review of the recent algorithms developed to improve the agents' policy by allowing the sharing of information between agents and the learning of communication strategies, with a focus on Deep Recurrent Q-Network-based models. We also describe recent efforts to interpret the languages generated by these agents and study their properties in an attempt to generate human-language-like sentences. We discuss the metrics used to evaluate the generated communication strategies and propose a novel entropy-based evaluation metric. Finally, we address the issue of the cost of communication and introduce the idea of an experimental setup to expose this cost in cooperative-competitive game.

研究动机与目标

综述近期在部分可观察环境中实现多智能体强化学习通信的算法。
分析智能体如何通过消息交换学习共享信息，特别是使用深度循环Q网络（Deep Recurrent Q-Networks）的机制。
评估涌现通信协议的质量，重点关注其可解释性及与自然语言的相似性。
提出一种基于熵的新型、与任务无关的评估度量方法，以衡量通信的有效性。
通过新的实验设置，研究合作-竞争多智能体环境中通信的成本对战略行为的影响。

提出的方法

使用深度Q网络（DQN）和独立DQN来表示多智能体设置中各智能体的价值函数。
在基于DQN的模型中应用经验回放和目标网络以稳定训练过程。
引入语言熵演化度量：H(m₁,…,mₜ) = −Σₛ pₜ(s) log(pₜ(s))，用于衡量消息带来的不确定性减少程度。
提出一个四人Pong游戏设置，通过设置不同的通信约束（私密、公开或无通信）来研究通信成本。
采用贝叶斯动作解码器来估计状态后验信念分布，用于计算基于熵的度量指标。
使用零样本组合性评估方法，检验学习到的消息是否能泛化到未见过的概念组合。

实验结果

研究问题

RQ1在部分可观察环境中，通信通道在多智能体策略性能方面起到了何种提升作用？
RQ2涌现的通信协议在结构和可解释性方面在多大程度上类似于自然语言？
RQ3能否使用信息论度量方法独立于任务性能来评估通信协议？
RQ4通信成本如何影响合作-竞争多智能体游戏中的战略行为？
RQ5消息熵在衡量协调任务中通信的区分能力方面起到何种作用？

主要发现

基于熵的度量方法有效捕捉了消息引起的不确定性减少，表明每条消息的信息量。
在Hanabi游戏中，随着通信惯例的出现，贝叶斯动作解码器显示出公共信念分布的熵逐渐降低。
图像描述任务中使用的纯度指数偏向于人类的宏观表征，可能无法反映自然智能体之间的通信特征。
零样本组合性评估表明，学习到的语言能够泛化到未见过的概念组合，暗示其具有组合性结构。
所提出的具有不同通信可见性设置的四人Pong环境，使得研究信息共享与竞争反应之间的战略权衡成为可能。
作者观察到，通信成本会影响团队策略的演化，特别是在消息会影响对手行为的合作-竞争环境中。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。