QUICK REVIEW

[論文レビュー] Multi-Agent Generative Adversarial Imitation Learning

Jiaming Song, Hongyu Ren|arXiv (Cornell University)|Jul 26, 2018

Reinforcement Learning in Robotics被引用数 94

ひとこと要約

MAIRLとMAGAILを定式化し、Kronecker因子を用いたマルチエージェント型アクター-クリティックを導入することで、生成対抗模倣学習をマルチエージェントマルコフゲームに拡張し、複雑なマルチエージェント挙動の経験的模倣を示す。

ABSTRACT

Imitation learning algorithms can be used to learn a policy from expert demonstrations without access to a reward signal. However, most existing approaches are not applicable in multi-agent settings due to the existence of multiple (Nash) equilibria and non-stationary environments. We propose a new framework for multi-agent imitation learning for general Markov games, where we build upon a generalized notion of inverse reinforcement learning. We further introduce a practical multi-agent actor-critic algorithm with good empirical performance. Our method can be used to imitate complex behaviors in high-dimensional environments with multiple cooperative or competing agents.

研究の動機と目的

非定常性と複数のナッシュ均衡の存在に起因する、マルチエージェント設定における模倣学習の難しさに対処する。
協調的または競争的なエージェントを含む複雑な挙動を模倣できる、一般的なマルチエージェントIRLフレームワークを開発する。
高次元環境に適用可能な実用的なアルゴリズム（MAGAILとMACK）を提案する。
未知の報酬下で学習されたポリシーが専門家の挙動を模倣することを経験的に示す。

提案手法

ナッシュ均衡制約付きの目的関数をラグランジュ乗数法で再形成してマルコフゲームへIRLを一般化し、MAIRLを導く。
計算可能な双対最適化を可能にする等価なtステップTD制約を導出し、専門家と学習者の占有測度を一致させるMAIRL目的を確立する。
各エージェントが自らの軌道を専門家の軌道と区別する識別器を持つ多-agent GAIL（MAGAIL）を導入し、学習された報酬として機能させる。
Kronecker因子を用いた現実的なマルチエージェントアクター-クリティック（MACK）を提案し、集中訓練・分散実行とKronecker因子化自然ポリシー勾配による効率化を実現する。
報酬構造の事前情報（集中型、分散型、ゼロ和）を許容し、識別器と訓練を協調的または競争的な設定に合わせて調整する。

実験結果

リサーチクエスチョン

RQ1エージェントが共有環境下で相互作用する場合、MAIRLはデモンストレーションから基礎となるマルチエージェントの報酬を回復できるか？
RQ2ナッシュ均衡と高分散勾配を考慮した、マルチエージェントのマルコフゲームでスケーラブルで安定な模倣目的をどう定式化できるか？
RQ3協調タスクと競合タスクにおける模倣性能に対する、異なる報酬事前情報（集中型・分散型・ゼロサム）の影響は？
RQ4実用的なMAGAILフレームワークは、協調的および対立的設定の両方で、複雑で高次元のマルチエージェント挙動を模倣できるか？
RQ5MACKアルゴリズムはマルチエージェント模倣学習に対してサンプル効率が良く、安定した最適化を提供するか？

主な発見

MAGAILのバリアント（集中型、分散型、ゼロサム）は、協調的なパーティクルタスクにおいて行動クローンより優れている。
競合タスクでは、分散型およびゼロサムMAGAILが、集中型MAGAILとBCをしばしば上回り、報酬事前情報の選択が重要であることを示している。
MAGAILは協調制御におけるサブ最適な専門家デモに適応でき、転移環境においてBCより高い成功率を示す。
提案されたMACKアルゴリズムは、集中訓練・分散実行で、Kronecker因子化自然ポリシー勾配を用いた実用的なサンプル効率学習を実現する。
パーティクル環境の実験は、協調・競合の両方のシナリオで、未知の真の報酬構造の下で学習ポリシーが専門家の挙動を模倣することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。