[论文解读] Multi-Agent Generative Adversarial Imitation Learning
将 Generative Adversarial Imitation Learning 扩展到多智能体马尔可夫博弈,通过框定 MAIRL 和 MAGAIL,引入带 Kronecker 因子的多智能体 actor-critic,并展示对复杂多智能体行为的经验模仿。
Imitation learning algorithms can be used to learn a policy from expert demonstrations without access to a reward signal. However, most existing approaches are not applicable in multi-agent settings due to the existence of multiple (Nash) equilibria and non-stationary environments. We propose a new framework for multi-agent imitation learning for general Markov games, where we build upon a generalized notion of inverse reinforcement learning. We further introduce a practical multi-agent actor-critic algorithm with good empirical performance. Our method can be used to imitate complex behaviors in high-dimensional environments with multiple cooperative or competing agents.
研究动机与目标
- 解决多智能体环境中模仿学习的困难,原因是非平稳性和多重纳什均衡。
- 开发一个通用的多智能体 IRL 框架,能够模仿具有合作或竞争代理的复杂行为。
- 提出可扩展到高维环境的实用算法(MAGAIL 和 MACK)。
- 给出经验证据,表明学习到的策略在未知奖励下可以模仿专家行为。
提出的方法
- 将 IRL 推广到马尔可夫博弈,使用通过拉格朗日函数改写的纳什均衡约束目标,从而得到 MAIRL。
- 推导等价的 t-step 时序差分约束,以实现可处理的对偶优化,并建立一个 MAIRL 目标,使专家和学习者之间的占用量(occupancy measures)相匹配。
- 引入多智能体 GAIL(MAGAIL),其中每个智能体都有一个鉴别器,用于区分其轨迹与专家轨迹,作为学习得到的奖励。
- 提出一种实用的带 Kronecker 因子的多智能体演员-评论家(MACK),采用集中训练和去中心化执行,以及用于效率的 Kronecker 因子化自然策略梯度。
- 允许对奖励结构设定先验(集中式、分布式、零和),以将鉴别器和训练定制为适应合作或竞争环境。
实验结果
研究问题
- RQ1当代理在共享环境中交互时,MAIRL 是否能够从示范中还原潜在的多智能体奖励?
- RQ2如何在多智能体马尔可夫博弈中制定一个可扩展、稳定的模仿目标,以考虑纳什均衡和高方差梯度?
- RQ3在协作和竞争任务中,不同奖励先验(集中式、分布式、零和)对模仿性能有何影响?
- RQ4一个实用的 MAGAIL 框架是否能够在协作和对抗设置中模仿复杂的高维多智能体行为?
- RQ5MACK 算法是否提供对多智能体模仿学习的样本高效、稳定优化?
主要发现
- MAGAIL 变体(集中式、分散式、零和)在协作粒子任务中优于行为克隆。
- 在竞争任务中,分散式和零和 MAGAIL 经常优于集中 MAGAIL 和 BC,表明奖励先验的选择很重要。
- MAGAIL 能适应协作控制中的次优专家示范,在迁移环境中的成功率高于 BC。
- 所提出的 MACK 算法在集中训练和去中心化执行下实现了具有 Kronecker 因子化的自然策略梯度的实际高样本效率学习。
- 粒子环境中的实验表明,学习到的策略在未知真实奖励结构下,在协作和竞争情境中都能模仿专家行为。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。