Skip to main content
QUICK REVIEW

[论文解读] Multi-Agent Generative Adversarial Imitation Learning

Jiaming Song, Hongyu Ren|arXiv (Cornell University)|Jul 26, 2018
Reinforcement Learning in Robotics被引用 94
一句话总结

将 Generative Adversarial Imitation Learning 扩展到多智能体马尔可夫博弈,通过框定 MAIRL 和 MAGAIL,引入带 Kronecker 因子的多智能体 actor-critic,并展示对复杂多智能体行为的经验模仿。

ABSTRACT

Imitation learning algorithms can be used to learn a policy from expert demonstrations without access to a reward signal. However, most existing approaches are not applicable in multi-agent settings due to the existence of multiple (Nash) equilibria and non-stationary environments. We propose a new framework for multi-agent imitation learning for general Markov games, where we build upon a generalized notion of inverse reinforcement learning. We further introduce a practical multi-agent actor-critic algorithm with good empirical performance. Our method can be used to imitate complex behaviors in high-dimensional environments with multiple cooperative or competing agents.

研究动机与目标

  • 解决多智能体环境中模仿学习的困难,原因是非平稳性和多重纳什均衡。
  • 开发一个通用的多智能体 IRL 框架,能够模仿具有合作或竞争代理的复杂行为。
  • 提出可扩展到高维环境的实用算法(MAGAIL 和 MACK)。
  • 给出经验证据,表明学习到的策略在未知奖励下可以模仿专家行为。

提出的方法

  • 将 IRL 推广到马尔可夫博弈,使用通过拉格朗日函数改写的纳什均衡约束目标,从而得到 MAIRL。
  • 推导等价的 t-step 时序差分约束,以实现可处理的对偶优化,并建立一个 MAIRL 目标,使专家和学习者之间的占用量(occupancy measures)相匹配。
  • 引入多智能体 GAIL(MAGAIL),其中每个智能体都有一个鉴别器,用于区分其轨迹与专家轨迹,作为学习得到的奖励。
  • 提出一种实用的带 Kronecker 因子的多智能体演员-评论家(MACK),采用集中训练和去中心化执行,以及用于效率的 Kronecker 因子化自然策略梯度。
  • 允许对奖励结构设定先验(集中式、分布式、零和),以将鉴别器和训练定制为适应合作或竞争环境。

实验结果

研究问题

  • RQ1当代理在共享环境中交互时,MAIRL 是否能够从示范中还原潜在的多智能体奖励?
  • RQ2如何在多智能体马尔可夫博弈中制定一个可扩展、稳定的模仿目标,以考虑纳什均衡和高方差梯度?
  • RQ3在协作和竞争任务中,不同奖励先验(集中式、分布式、零和)对模仿性能有何影响?
  • RQ4一个实用的 MAGAIL 框架是否能够在协作和对抗设置中模仿复杂的高维多智能体行为?
  • RQ5MACK 算法是否提供对多智能体模仿学习的样本高效、稳定优化?

主要发现

  • MAGAIL 变体(集中式、分散式、零和)在协作粒子任务中优于行为克隆。
  • 在竞争任务中,分散式和零和 MAGAIL 经常优于集中 MAGAIL 和 BC,表明奖励先验的选择很重要。
  • MAGAIL 能适应协作控制中的次优专家示范,在迁移环境中的成功率高于 BC。
  • 所提出的 MACK 算法在集中训练和去中心化执行下实现了具有 Kronecker 因子化的自然策略梯度的实际高样本效率学习。
  • 粒子环境中的实验表明,学习到的策略在未知真实奖励结构下,在协作和竞争情境中都能模仿专家行为。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。