QUICK REVIEW
[论文解读] The Multi-Agent Reinforcement Learning in MalmÖ (MARLÖ) Competition
Diego Pérez-Liébana, Katja Hofmann|arXiv (Cornell University)|Jan 23, 2019
Reinforcement Learning in Robotics参考文献 11被引用 54
一句话总结
MARLÖ 竞赛在多个基于 Minecraft 的 3D 游戏中提出一个多智能体强化学习基准,旨在促进能够跨游戏、跨任务和跨对手类型泛化的智能体,通过对战锦标赛进行评估。
ABSTRACT
Learning in multi-agent scenarios is a fruitful research direction, but current approaches still show scalability problems in multiple games with general reward settings and different opponent types. The Multi-Agent Reinforcement Learning in MalmÖ (MARLÖ) competition is a new challenge that proposes research in this domain using multiple 3D games. The goal of this contest is to foster research in general agents that can learn across different games and opponent types, proposing a challenge as a milestone in the direction of Artificial General Intelligence.
研究动机与目标
- 促进一般性、跨多游戏的多智能体强化学习研究。
- 开发能够在多款3D游戏和不同对手类型中学习的智能体。
- 提供可配置的任务空间和多个实例,以避免对单一任务的过拟合。
提出的方法
- 定义三个基于Minecraft的游戏(Mob Chase、Build Battle、Treasure Hunt),具备协作与竞争要素。
- 提供起步包和测试任务以加速开发与迭代。
- 采用轮流对战的锦标赛来评估跨游戏和任务的智能体。
- 利用高度可参数化的任务配置来创建每个游戏的多样变体。
- 要求智能体在多款游戏及对阵多名其他智能体时表现良好,以抑制过拟合。
实验结果
研究问题
- RQ1在 MARLÖ 内,智能体在不同游戏之间的泛化能力有多强?
- RQ2在每个游戏中,不同任务变体的泛化程度如何?
- RQ3智能体对于多智能体环境中的不同对手类型有多大鲁棒性?
- RQ4为泛化而设计的智能体能够在 MARLÖ 基准中超越针对特定游戏的智能体吗?
主要发现
- MARLÖ 旨在通过在多游戏、多任务和多对手的测试推进多智能体强化学习中的泛化。
- 该竞赛提供公开基准、起步包和基线,简化入门与评估。
- 最终排名由覆盖三款游戏和多项任务的对战锦标赛决定,鼓励跨游戏熟练度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。