QUICK REVIEW

[论文解读] ACCNet: Actor-Coordinator-Critic Net for "Learning-to-Communicate" with Deep Multi-agent Reinforcement Learning

Hangyu Mao, Zhibo Gong|arXiv (Cornell University)|Jun 10, 2017

Reinforcement Learning in Robotics参考文献 33被引用 40

一句话总结

本文提出ACCNet，一种新颖的深度多智能体强化学习框架，使完全协作的智能体能够在部分可观测环境中从零开始学习通信协议。通过将演员-评论家架构与集中式协调器相结合，ACCNet——特别是其A-CCNet变体——在连续和离散动作空间中均展现出优越的泛化能力，并消除了推理阶段的通信需求，优于基线方法。

ABSTRACT

Communication is a critical factor for the big multi-agent world to stay organized and productive. Typically, most previous multi-agent "learning-to-communicate" studies try to predefine the communication protocols or use technologies such as tabular reinforcement learning and evolutionary algorithm, which can not generalize to changing environment or large collection of agents. In this paper, we propose an Actor-Coordinator-Critic Net (ACCNet) framework for solving "learning-to-communicate" problem. The ACCNet naturally combines the powerful actor-critic reinforcement learning technology with deep learning technology. It can efficiently learn the communication protocols even from scratch under partially observable environment. We demonstrate that the ACCNet can achieve better results than several baselines under both continuous and discrete action space environments. We also analyse the learned protocols and discuss some design considerations.

研究动机与目标

解决先前多智能体'学习通信'方法依赖预定义协议或非可扩展技术（如表格强化学习和进化算法）的局限性。
实现在部分可观测、去中心化的环境中端到端学习通信协议，且带宽有限。
开发一种可扩展、泛化能力强的框架，支持连续和离散动作空间，同时保持训练稳定性。
探索在推理阶段无需通信的通信协议训练可行性，以增强现实世界中的可部署性。
研究在合作式多智能体强化学习中，集中式训练与协调器对策略学习和泛化能力的提升作用。

提出的方法

提出ACCNet，一种双范式框架：AC-CNet（通过评论家协调演员）和A-CCNet（通过协调器协调评论家），二者均采用深度演员-评论家强化学习。
在训练期间使用集中式协调器聚合和处理多智能体经验，即使在部分可观测条件下也能实现更稳定的策略更新。
提出一种新颖的经验回放机制，称为CER（并发经验回放），通过在同一时间步采样所有智能体的经验来保持时间一致性。
采用CEER（当前回合经验回放），一种时间优先的经验回放方法，在回合结束时将当前回合的经验保留在主回放缓冲区中。
应用激活函数选择策略：离散动作使用ReLU，敏感的连续动作则使用非线性函数（如ELU或Sigmoid）以保留状态信息。
利用深度神经网络对通信消息进行压缩，通过限制消息维度实现‘空间稀疏性’，提升带宽效率。

实验结果

研究问题

RQ1多智能体系统能否在部分可观测环境中，使用深度演员-评论家强化学习从零开始学习有效的通信协议？
RQ2在训练期间引入集中式协调器，对合作式多智能体强化学习中的策略学习和泛化能力有何影响？
RQ3尽管存在部分可观测性，A-CCNet变体是否能在无需推理阶段通信的情况下实现优异性能？
RQ4CER和CEER等经验回放策略在稳定具有非并发经验的多智能体系统训练方面发挥何种作用？
RQ5如何通过基于深度学习的压缩和门控机制，使通信既带宽高效又具备时间稀疏性？

主要发现

AC-CNet和A-CCNet在具有连续和离散动作空间的简单多智能体环境中，性能均优于基线方法。
在复杂环境中，A-CCNet展现出显著更好的泛化能力，其性能几乎与完全可观测模型相当。
CER和CEER经验回放机制的使用提升了训练稳定性，尤其在具有非并发智能体经验的部分可观测设置中。
A-CCNet变体实现了无需通信的推理，同时保持高性能，使其适用于带宽受限系统中的实际部署。
恰当的激活函数选择——如离散动作使用ReLU，连续动作使用非线性函数——可提升策略准确性和稳定性。
基于深度神经网络的通信消息压缩可实现通信信号的‘空间稀疏性’，在不损失性能的前提下减少带宽使用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。