Skip to main content
QUICK REVIEW

[论文解读] Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning

Jakub Grudzien Kuba, Ruiqing Chen|arXiv (Cornell University)|Sep 23, 2021
Reinforcement Learning in Robotics参考文献 33被引用 83
一句话总结

本论文通过引入带有单调改进保证的理论框架,将信任域学习扩展到协作型多智能体强化学习,并提出在无参数共享的前提下处理异质代理的 HATRPO 和 HAPPO 算法。

ABSTRACT

Trust region methods rigorously enabled reinforcement learning (RL) agents to learn monotonically improving policies, leading to superior performance on a variety of tasks. Unfortunately, when it comes to multi-agent reinforcement learning (MARL), the property of monotonic improvement may not simply apply; this is because agents, even in cooperative games, could have conflicting directions of policy updates. As a result, achieving a guaranteed improvement on the joint policy where each agent acts individually remains an open challenge. In this paper, we extend the theory of trust region learning to MARL. Central to our findings are the multi-agent advantage decomposition lemma and the sequential policy update scheme. Based on these, we develop Heterogeneous-Agent Trust Region Policy Optimisation (HATPRO) and Heterogeneous-Agent Proximal Policy Optimisation (HAPPO) algorithms. Unlike many existing MARL algorithms, HATRPO/HAPPO do not need agents to share parameters, nor do they need any restrictive assumptions on decomposibility of the joint value function. Most importantly, we justify in theory the monotonic improvement property of HATRPO/HAPPO. We evaluate the proposed methods on a series of Multi-Agent MuJoCo and StarCraftII tasks. Results show that HATRPO and HAPPO significantly outperform strong baselines such as IPPO, MAPPO and MADDPG on all tested tasks, therefore establishing a new state of the art.

研究动机与目标

  • 推动在代理可能有冲突策略更新的多智能体设置中扩展信任区域方法。
  • 建立一套理论,保证协作型 MARL 中联合策略的单调改进。
  • 引入实用的顺序更新方案和算法,这些不需要同质代理或联合值函数分解。
  • 提供理论保证和实证验证,显示在 MARL 基准测试上的最优性能。

提出的方法

  • 给出通过多智能体优势分解引理实现具有单调改进性的多智能体策略迭代。
  • 提出保证联合改进的逐智能体策略更新(算法1)。
  • 推导理论结果:单调改进性(定理2)和向纳什均衡收敛(定理3)。
  • 引入实现带有可处理的 KL 约束的顺序更新的实用算法 HATRPO 和 HAPPO。
  • 使用联合优势估计器在不为每个代理设立集中评判者的情况下计算更新(命题2)。
  • 提供 PPO 风格裁剪变体(HAPPO),在减少计算负担的同时保持性能。

实验结果

研究问题

  • RQ1如何将信任区域理论扩展到具有异质代理的协作型 MARL?
  • RQ2逐智能体更新方案是否能保证 MARL 中联合策略的单调改进?
  • RQ3此类方案的理论收敛性质是什么,如何在实际中高效实现?
  • RQ4不共享参数的异质代理 TRPO/PPO 算法是否在 MARL 基准测试上达到最先进的性能?
  • RQ5如何利用联合优势估计器来避免集中评审者,同时实现可靠更新?

主要发现

  • 引入具有协作 MARL 单调改进保证的多智能体信任区域学习。
  • 证明了一个多智能体优势分解,能够实现保证改进的顺序更新(定理2)。
  • 在随机更新顺序下收敛到纳什均衡(定理3)。
  • 给出不需要参数共享且不假设联合 Q 函数分解的 HATRPO 和 HAPPO。
  • 在 StarCraftII 和 Multi-Agent MuJoCo 上对 MADDPG、IPPO 和 MAPPO 基线显示出最先进的性能。
  • 提供一种实用、可扩展的方法,使用联合优势估计器以避免多个集中评判者。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。