Skip to main content
QUICK REVIEW

[论文解读] Biases for Emergent Communication in Multi-agent Reinforcement Learning

Tom Eccles, Yoram Bachrach|arXiv (Cornell University)|Dec 11, 2019
Evolutionary Algorithms and Applications被引用 29
一句话总结

本文引入了积极信号传递与积极倾听的归纳偏置,以提升去中心化多智能体强化学习中的涌现通信。通过添加鼓励说话者提供信息量和倾听者保持专注的辅助损失,该方法在简单环境与时序扩展环境中显著提高了学习通信协议的一致性与性能,结合两种偏置时最终奖励最高达15.41。

ABSTRACT

We study the problem of emergent communication, in which language arises because speakers and listeners must communicate information in order to solve tasks. In temporally extended reinforcement learning domains, it has proved hard to learn such communication without centralized training of agents, due in part to a difficult joint exploration problem. We introduce inductive biases for positive signalling and positive listening, which ease this problem. In a simple one-step environment, we demonstrate how these biases ease the learning problem. We also apply our methods to a more extended environment, showing that agents with these inductive biases achieve better performance, and analyse the resulting communication protocols.

研究动机与目标

  • 为解决去中心化多智能体强化学习中联合探索困难的挑战。
  • 在无需集中训练的情况下,提升通信协议的一致性与可靠性。
  • 将格里塞合作原则形式化为可学习的说话者与倾听者辅助损失。
  • 评估这些偏置是否在单步与时序扩展环境中均能促进通信的涌现。
  • 分析所得通信协议及其对任务性能的影响。

提出的方法

  • 提出正向信号传递损失,通过衡量倾听者注意力来奖励说话者提升其信息的社交影响力。
  • 引入正向倾听损失,通过奖励倾听者对说话者信息的注意力提升,促进其响应性。
  • 将这些辅助损失附加至标准的RIAL(Reinforced Inter-Agent Learning)框架,保持去中心化训练与执行。
  • 使用威尔逊置信区间计算“良好”通信运行比例的置信区间,确保评估稳健性。
  • 采用干预分析方法,通过用固定符号覆盖消息来验证倾听者是否基于传递的信息采取行动。
  • 在两个环境中应用该方法:一个单步的MNIST求和任务与一个具有时序依赖关系的网格世界寻宝任务。

实验结果

研究问题

  • RQ1正向信号传递与倾听的归纳偏置是否能提升去中心化MARL中一致通信的涌现?
  • RQ2在简单单步环境中,这些偏置如何影响学习动态与最终性能?
  • RQ3在时序扩展环境中,这些偏置是否带来更可靠且可解释的通信协议?
  • RQ4倾听者对说话者信息的响应程度在多大程度上发生变化?是否可通过干预验证?
  • RQ5通信协议是否可被解释为传递了关于环境状态的有意义信息?

主要发现

  • 在单步MNIST环境中,应用正向信号传递与倾听偏置后,“良好”通信运行的比例从无偏置时的28%提升至94%。
  • 采用双重视觉偏置的最终平均奖励达到15.41 ± 0.14,显著高于无偏置时的12.45 ± 0.48。
  • 在网格世界环境中,当通信被一致消息覆盖时,进入隧道的中位时间从基线的100.6 ± 14.7帧减少至36.1 ± 3.3帧,证实倾听者有效响应。
  • 在中位运行中,通信协议表现出强相关性:一个符号在75%的时间内表示最右侧隧道存在宝藏。
  • 在表现最佳的运行中,多个符号被用于报告多个隧道的状态,表明协议更为复杂且信息量更高。
  • 正向信号传递与倾听损失在无需可微通信或集中训练的前提下,显著提升了通信的涌现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。