QUICK REVIEW

[论文解读] MAgent: A Many-Agent Reinforcement Learning Platform for Artificial Collective Intelligence

Lianmin Zheng, Jiacheng Yang|arXiv (Cornell University)|Dec 2, 2017

Reinforcement Learning in Robotics参考文献 8被引用 33

一句话总结

MAgent 是一个可扩展的强化学习平台，专为同时训练数百至数百万个智能体而设计，支持对涌现集体智能的研究。该平台支持大规模多智能体环境，具备可自定义的智能体、通过领域特定语言定义的奖励规则，以及实时可视化功能，展示了在追捕、聚集和战斗等任务中涌现的合作、竞争与社会行为。

ABSTRACT

We introduce MAgent, a platform to support research and development of many-agent reinforcement learning. Unlike previous research platforms on single or multi-agent reinforcement learning, MAgent focuses on supporting the tasks and the applications that require hundreds to millions of agents. Within the interactions among a population of agents, it enables not only the study of learning algorithms for agents' optimal polices, but more importantly, the observation and understanding of individual agent's behaviors and social phenomena emerging from the AI society, including communication languages, leaderships, altruism. MAgent is highly scalable and can host up to one million agents on a single GPU server. MAgent also provides flexible configurations for AI researchers to design their customized environments and agents. In this demo, we present three environments designed on MAgent and show emerged collective intelligence by learning from scratch.

研究动机与目标

解决缺乏支持数百至数百万智能体的大规模多智能体强化学习平台的问题。
支持在人工智能社会中研究涌现的社会现象，如通信、领导力和利他主义。
提供一个高度可扩展、灵活且交互性强的环境，用于训练和观察人工智能智能体的集体智能。
支持大规模多智能体强化学习算法的开发与基准测试。
通过实时渲染和人机协同控制，促进对人工智能社会的交互式探索。

提出的方法

使用基于 C++ 的网格世界引擎，实现对大规模智能体群体的高速仿真。
采用参数共享与 ID 嵌入技术，实现在单张 GPU 上支持高达一百万智能体的可扩展性。
引入奖励描述语言，允许用户通过逻辑表达式定义事件与奖励（例如：'若捕食者攻击猎物，则给捕食者 +1 奖励，给猎物 -1 奖励'）。
通过 Python 接口支持异构智能体，可配置状态空间、动作空间和属性。
提供可视化渲染功能，实现实时观察智能体行为与环境动态，包括缩放、平移及手动控制智能体。
实现基线算法，包括参数共享 DQN、DRQN 和 A2C，用于基准测试。

实验结果

研究问题

RQ1如何将强化学习扩展至单次仿真中支持数百至数百万智能体？
RQ2大规模多智能体交互中会涌现出哪些类型的集体行为，如合作、竞争或领导力？
RQ3在大规模人工智能社会中，通过自我对弈训练能否涌现出通信或社会结构？
RQ4可自定义的奖励规则与智能体配置在多大程度上影响复杂策略的涌现？
RQ5用户在多大程度上能够实时交互并影响大规模人工智能社会？

主要发现

MAgent 成功在单张 GPU 上仿真高达一百万智能体，展现出出色的可扩展性。
在追捕环境中，捕食者学会形成协同包抄以围困猎物，展现出涌现的局部合作行为。
在聚集环境中，智能体学会优先进食，但在近距离时升级为相互攻击，反映出资源稀缺下的竞争行为。
在战斗环境中，智能体通过自我对弈训练发展出包括包围攻击与游击战在内的混合策略。
该平台支持实时可视化与人机协同交互，允许用户控制智能体并观察涌现的动力学行为。
奖励描述语言支持通过逻辑运算灵活且富有表现力地定义复杂奖励结构。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。