Skip to main content
QUICK REVIEW

[论文解读] A Review of Cooperation in Multi-agent Learning

Yali Du, Joel Z. Leibo|arXiv (Cornell University)|Dec 8, 2023
Evolutionary Game Theory and Cooperation被引用 15
一句话总结

本综述评估合作多智能体学习中的基本概念、问题设置和算法,涵盖基于团队的和混合动机设定、挑战、基准与未解问题。

ABSTRACT

Cooperation in multi-agent learning (MAL) is a topic at the intersection of numerous disciplines, including game theory, economics, social sciences, and evolutionary biology. Research in this area aims to understand both how agents can coordinate effectively when goals are aligned and how they may cooperate in settings where gains from working together are possible but possibilities for conflict abound. In this paper we provide an overview of the fundamental concepts, problem settings and algorithms of multi-agent learning. This encompasses reinforcement learning, multi-agent sequential decision-making, challenges associated with multi-agent cooperation, and a comprehensive review of recent progress, along with an evaluation of relevant metrics. Finally we discuss open challenges in the field with the aim of inspiring new avenues for research.

研究动机与目标

  • 在多智能体学习(MAL)和跨学科合作方面综合基本概念。
  • 区分基于团队的MAL与混合动机的MAL及其独特挑战。
  • 综述用于研究合作MAL的算法、基准和评估指标。
  • 指出开放挑战与未来研究方向,以激发合作AI的研究。

提出的方法

  • 将单智能体强化学习的基础定义扩展到多智能体马尔可夫游戏和 POMGs。
  • 将 MAL 分类为合作、竞争和混合动机设定,并给出形式定义(MDP/Markov games)。
  • 回顾学习范式(基于值、基于策略、CTDE)及用于团队协作的代表性算法。
  • 讨论混合动机MAL中的信用分配、对新伙伴的泛化以及社会困境。
  • 总结用于研究MAL合作的基准、指标和评估方法。
Figure 1: A taxonomy of multi-agent systems (Schelling, 1960 ) .
Figure 1: A taxonomy of multi-agent systems (Schelling, 1960 ) .

实验结果

研究问题

  • RQ1在 MAL 中用于研究合作的基本概念与框架是什么?
  • RQ2基于团队的和混合动机的 MAL 在目标、激励和算法方法上有何区别?
  • RQ3阻碍合作的核心挑战(信用分配、非平稳性、泛化)是什么,如何解决?
  • RQ4在不同奖励结构下,哪些算法和学习范式最适合合作的多智能体强化学习?
  • RQ5哪些指标和基准最好地体现MAL中的合作行为和社会福利?

主要发现

  • 在团队基础(共享奖励)和混合动机(个人奖励、社会困境)框架下分析MAL中的合作。
  • 随着代理数量的增加和策略共同适应,非平稳性和可扩展性是核心挑战。
  • 在团队设置中,信用分配和区分个体贡献很困难,尤其是在奖励稀疏/延迟的情况下。
  • CTDE、基于策略/基于值的方法以及对照基线是实现可扩展协作学习的显著方法。
  • 对新伙伴的泛化(即兴团队协作)和对剥削的鲁棒性是混合动机MAL中的活跃研究领域。
Figure 2: For a population of size $n$ , the Schelling diagram shows the payoff for an $n+1$ agent choosing to either defect or cooperate. The dotted line shows the average reward of the population.
Figure 2: For a population of size $n$ , the Schelling diagram shows the payoff for an $n+1$ agent choosing to either defect or cooperate. The dotted line shows the average reward of the population.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。