QUICK REVIEW

[论文解读] Multi-Agent Generative Adversarial Imitation Learning

Jiaming Song, Hongyu Ren|arXiv (Cornell University)|Jul 26, 2018

Reinforcement Learning in Robotics被引用 94

一句话总结

将 Generative Adversarial Imitation Learning 扩展到多智能体马尔可夫博弈，通过框定 MAIRL 和 MAGAIL，引入带 Kronecker 因子的多智能体 actor-critic，并展示对复杂多智能体行为的经验模仿。

ABSTRACT

Imitation learning algorithms can be used to learn a policy from expert demonstrations without access to a reward signal. However, most existing approaches are not applicable in multi-agent settings due to the existence of multiple (Nash) equilibria and non-stationary environments. We propose a new framework for multi-agent imitation learning for general Markov games, where we build upon a generalized notion of inverse reinforcement learning. We further introduce a practical multi-agent actor-critic algorithm with good empirical performance. Our method can be used to imitate complex behaviors in high-dimensional environments with multiple cooperative or competing agents.

研究动机与目标

解决多智能体环境中模仿学习的困难，原因是非平稳性和多重纳什均衡。
开发一个通用的多智能体 IRL 框架，能够模仿具有合作或竞争代理的复杂行为。
提出可扩展到高维环境的实用算法（MAGAIL 和 MACK）。
给出经验证据，表明学习到的策略在未知奖励下可以模仿专家行为。

提出的方法

将 IRL 推广到马尔可夫博弈，使用通过拉格朗日函数改写的纳什均衡约束目标，从而得到 MAIRL。
推导等价的 t-step 时序差分约束，以实现可处理的对偶优化，并建立一个 MAIRL 目标，使专家和学习者之间的占用量（occupancy measures）相匹配。
引入多智能体 GAIL（MAGAIL），其中每个智能体都有一个鉴别器，用于区分其轨迹与专家轨迹，作为学习得到的奖励。
提出一种实用的带 Kronecker 因子的多智能体演员-评论家（MACK），采用集中训练和去中心化执行，以及用于效率的 Kronecker 因子化自然策略梯度。
允许对奖励结构设定先验（集中式、分布式、零和），以将鉴别器和训练定制为适应合作或竞争环境。

实验结果

研究问题

RQ1当代理在共享环境中交互时，MAIRL 是否能够从示范中还原潜在的多智能体奖励？
RQ2如何在多智能体马尔可夫博弈中制定一个可扩展、稳定的模仿目标，以考虑纳什均衡和高方差梯度？
RQ3在协作和竞争任务中，不同奖励先验（集中式、分布式、零和）对模仿性能有何影响？
RQ4一个实用的 MAGAIL 框架是否能够在协作和对抗设置中模仿复杂的高维多智能体行为？
RQ5MACK 算法是否提供对多智能体模仿学习的样本高效、稳定优化？

主要发现

MAGAIL 变体（集中式、分散式、零和）在协作粒子任务中优于行为克隆。
在竞争任务中，分散式和零和 MAGAIL 经常优于集中 MAGAIL 和 BC，表明奖励先验的选择很重要。
MAGAIL 能适应协作控制中的次优专家示范，在迁移环境中的成功率高于 BC。
所提出的 MACK 算法在集中训练和去中心化执行下实现了具有 Kronecker 因子化的自然策略梯度的实际高样本效率学习。
粒子环境中的实验表明，学习到的策略在未知真实奖励结构下，在协作和竞争情境中都能模仿专家行为。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。