Skip to main content
QUICK REVIEW

[论文解读] Emergent Coordination Through Competition

Siqi Liu, Guy Lever|arXiv (Cornell University)|Feb 19, 2019
Sports Analytics and Performance被引用 56
一句话总结

本文在一个竞争性的 2v2 MuJoCo 足球环境中,研究强化学习代理之间如何涌现协作行为,使用带协同对局的基于种群的训练和分解的奖励塑形,通过 Nash 平均评估来评估非预定义基准。

ABSTRACT

We study the emergence of cooperative behaviors in reinforcement learning agents by introducing a challenging competitive multi-agent soccer environment with continuous simulated physics. We demonstrate that decentralized, population-based training with co-play can lead to a progression in agents' behaviors: from random, to simple ball chasing, and finally showing evidence of cooperation. Our study highlights several of the challenges encountered in large scale multi-agent training in continuous control. In particular, we demonstrate that the automatic optimization of simple shaping rewards, not themselves conducive to co-operative behavior, can lead to long-horizon team behavior. We further apply an evaluation scheme, grounded by game theoretic principals, that can assess agent performance in the absence of pre-defined evaluation tasks or human baselines.

研究动机与目标

  • 研究通过竞争型多智能体环境,在 MARL 中如何涌现协作行为。
  • 开发并测试一个去中心化的基于种群的训练框架,包含独立学习者的协同对局。
  • 探索奖励塑形与分解的折扣,鼓励长时间、团队导向的行为。
  • 提出不依赖预定义任务或人类基线的评估方法,使用博弈论原理。
  • 分析在大规模带连续控制的多智能体训练中的挑战。

提出的方法

  • 使用具有连续物理的 2v2 足球环境(MuJoCo)来研究多智能体互动。
  • 对独立学习者群体应用带协同对局的基于种群的训练(PBT)来进化策略。
  • 采用 SVG0(随机值梯度)结合带循环 critic 来估计多智能体设定中的价值函数。
  • 将奖励分解为多个塑形通道,使用各自的折扣因子,以促进探索和信用分配。
  • 通过 PBT 适应度信号在线优化塑形奖励权重,使其从近视型塑形过渡到长远目标的团队奖励。
  • 引入反事实策略发散作为分析对部分观测依赖并评估涌现协作的方法。

实验结果

研究问题

  • RQ1去中心化的 PBT 与协同对局是否能在竞争性多智能体足球领域产生涌现的协作行为?
  • RQ2奖励塑形与分解折扣如何随时间影响协作策略的涌现?
  • RQ3在不可传递的、竞争性的 MARL 设置中,哪些评估方案能够在没有人类基线的情况下稳健评估代理表现?
  • RQ4评价器中的记忆与递归对价值估计和学习在基于种群的 MARL 框架中的影响?
  • RQ5在大规模连续控制 MARL 中的实际挑战和易被利用的迹象是什么?

主要发现

  • 智能体从随机行为进展到简单追球,最终通过传球模式和团队意识体现出的协同比赛。
  • 具协同对局的基于种群的训练和奖励塑形使奖励塑形自动优化以实现长远的团队目标。
  • 分解的奖励通道及独立折扣有助于将个体学习与团队目标对齐并随时间适应。
  • 反事实策略发散显示对队友观测日益依赖以及协作行为的演进。
  • Nash-averaging 评估揭示了不可传递性与代理之间的多样性,这是 Elo 排名 alone 无法仅凭。
  • 评价器中的递归性提高了对多样化对手的泛化,though 在某些设置下可能不如前馈策略。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。