QUICK REVIEW

[论文解读] Multiagent Bidirectionally-Coordinated Nets: Emergence of Human-level Coordination in Learning to Play StarCraft Combat Games

Peng Peng, Ying Wen|arXiv (Cornell University)|Mar 29, 2017

Reinforcement Learning in Robotics参考文献 40被引用 272

一句话总结

BiCNet 通过双向循环通信和共享演员-评论家框架，在 StarCraft 战斗任务中实现可扩展的多智能体协作，达到无人示范的人类级协作。

ABSTRACT

Many artificial intelligence (AI) applications often require multiple intelligent agents to work in a collaborative effort. Efficient learning for intra-agent communication and coordination is an indispensable step towards general AI. In this paper, we take StarCraft combat game as a case study, where the task is to coordinate multiple agents as a team to defeat their enemies. To maintain a scalable yet effective communication protocol, we introduce a Multiagent Bidirectionally-Coordinated Network (BiCNet ['bIknet]) with a vectorised extension of actor-critic formulation. We show that BiCNet can handle different types of combats with arbitrary numbers of AI agents for both sides. Our analysis demonstrates that without any supervisions such as human demonstrations or labelled data, BiCNet could learn various types of advanced coordination strategies that have been commonly used by experienced game players. In our experiments, we evaluate our approach against multiple baselines under different scenarios; it shows state-of-the-art performance, and possesses potential values for large-scale real-world applications.

研究动机与目标

激发在复杂、实时的游戏中多智能体学习类似人类的协作的研究。
开发一个可扩展的通信机制，能够处理任意数量的智能体且无需人类示范。
证明嵌入记忆增强网络的双向通信能够实现涌现的协同策略。
在多样的 StarCraft 战斗场景中显示出相对于基线的性能提升。
展示 BiCNet 在现实世界大规模多智能体应用中的潜力。

提出的方法

将 StarCraft 微操控建模为双方各自拥有同质智能体的零和随机博弈。
提出 BiCNet：一种使用双向 RNN 进行智能体间通信与共享参数的双向协调多智能体演员-评论家网络。
推导一个多智能体确定性策略梯度框架（多智能体确定性 PG 定理）用于学习联合策略。
引入局部奖励建模以捕捉各个智能体的归因并促进可扩展的信用分配。
使用离策略的确定性演员-评论家方法进行训练，并通过 BiCNet 传播的梯度来更新演员和评论家网络。

实验结果

研究问题

RQ1BiCNet 是否能够在没有人类示范的情况下促进大量智能体之间的可扩展、涌现式协作？
RQ2与现有基线相比，双向、基于记忆的通信是否提升 StarCraft 战斗任务中的多智能体协作与性能？
RQ3BiCNet 如何在保持紧凑参数化的同时处理可变的团队规模和异质化的智能体类型？
RQ4随着智能体学习，涌现出的协同策略是什么，以及它们与人类策略（如集中火力、掩护进攻）有何比较？

主要发现

BiCNet 在多种 StarCraft 战斗场景中相对于基于规则的方法和多种深度强化学习基线取得了最先进的性能。
该模型学习了多样化的协同策略，如无碰撞移动、以战斗为单位的打击-撤退、掩护进攻以及协同行动聚焦火力。
BiCNet 由于参数共享，能够扩展到不同数量的智能体，且随着团队规模的增加，性能提升尤为明显。
可视化表明高 Q 值状态对应于具有战略优势的协同动作。
一个更简单的三智能体通信示例展示了有效的双向信息共享，在附加任务中优于其他基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。