QUICK REVIEW

[論文レビュー] Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning

Jakub Grudzien Kuba, Ruiqing Chen|arXiv (Cornell University)|Sep 23, 2021

Reinforcement Learning in Robotics参考文献 33被引用数 83

ひとこと要約

本論文は、単調改善保証を備えた理論的枠組みを導入し、共同のマルチエージェント強化学習に信頼領域学習を拡張し、異種エージェントをパラメータ共有なしで扱うHATRPOとHAPPOアルゴリズムを提案する。

ABSTRACT

Trust region methods rigorously enabled reinforcement learning (RL) agents to learn monotonically improving policies, leading to superior performance on a variety of tasks. Unfortunately, when it comes to multi-agent reinforcement learning (MARL), the property of monotonic improvement may not simply apply; this is because agents, even in cooperative games, could have conflicting directions of policy updates. As a result, achieving a guaranteed improvement on the joint policy where each agent acts individually remains an open challenge. In this paper, we extend the theory of trust region learning to MARL. Central to our findings are the multi-agent advantage decomposition lemma and the sequential policy update scheme. Based on these, we develop Heterogeneous-Agent Trust Region Policy Optimisation (HATPRO) and Heterogeneous-Agent Proximal Policy Optimisation (HAPPO) algorithms. Unlike many existing MARL algorithms, HATRPO/HAPPO do not need agents to share parameters, nor do they need any restrictive assumptions on decomposibility of the joint value function. Most importantly, we justify in theory the monotonic improvement property of HATRPO/HAPPO. We evaluate the proposed methods on a series of Multi-Agent MuJoCo and StarCraftII tasks. Results show that HATRPO and HAPPO significantly outperform strong baselines such as IPPO, MAPPO and MADDPG on all tested tasks, therefore establishing a new state of the art.

研究の動機と目的

エージェントが対立するポリシー更新を行う可能性があるマルチエージェント設定へ信頼領域法を拡張する動機づけ。
協調型MARLにおける結合ポリシーの単調改善を保証する理論の構築。
均質なエージェントや共同価値関数の分解性を必要としない実用的な逐次更新スキームとアルゴリズムの導入。
MARLベンチマークで最先端の性能を示す理論的保証と経験的検証を提供。

提案手法

多エージェント利点分解補題を用いた単調改善による多エージェントポリシー反復を提示。
共同改善を保証する逐次的なエージェント別ポリシー更新を提案（Algorithm 1）。
理論的結果の導出：単調改善（定理2）とナッシュ均衡への収束（定理3）。
実用的なアルゴリズムHATRPOとHAPPOを導入し、扱いやすいKL制約を伴う逐次更新を実装。
各エージェントの中央集権的な評論家を使わずに更新を計算する結合利得推定量を使用（命題2）。
性能を維持しつつ計算負荷を削減するPPO風クリッピング変種（HAPPO）を提供。

実験結果

リサーチクエスチョン

RQ1異種エージェントを持つ協調MARLへ信頼領域理論をどのように拡張できるか？
RQ2MARLにおける結合ポリシーの単調改善を逐次エージェント別更新スキームが保証できるか？
RQ3そのようなスキームの理論的収束特性は何か、実践的にどのように効率的に実装できるか？
RQ4異種エージェントTRPO/PPOアルゴリズムは共有パラメータなしでMARLベンチマークにおいて最先端の性能を達成するか？
RQ5信頼性のある更新を可能にしつつ中央集権的な評論家を避けるために結合利得推定量をどのように活用できるか？

主な発見

協調MARLの単調改善保証を備えたMulti-Agent Trust Region Learningを導入。
改善を保証する逐次更新を可能にする多エージェント利得分解を証明（定理2）。
ランダム更新順序の下でナッシュ均衡への収束を示す（定理3）。
パラメータ共有を必要とせず、結合Q関数の分解可能性を前提としないHATRPOとHAPPOを提示。
StarCraftIIとMulti-Agent MuJoCoでMADDPG、IPPO、MAPPOのベースラインに対して最先端の性能を示す。
複数の中央集権的評論家を回避する結合利得推定量を用いた実践的で拡張性のあるアプローチを提供。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。