QUICK REVIEW

[論文レビュー] Multi-Agent Adversarial Inverse Reinforcement Learning

Lantao Yu, Jiaming Song|arXiv (Cornell University)|Jul 30, 2019

Anomaly Detection Techniques and Applications被引用数 45

ひとこと要約

MA-AIRL は、専門家のデモから報酬関数とポリシーを学習する、マルチエージェント・マルコフゲームのスケーラブルな MaxEnt IRL フレームワークであり、ロジスティック確率的ベストレスポンス均衡と敵対的訓練を用いる。

ABSTRACT

Reinforcement learning agents are prone to undesired behaviors due to reward mis-specification. Finding a set of reward functions to properly guide agent behaviors is particularly challenging in multi-agent scenarios. Inverse reinforcement learning provides a framework to automatically acquire suitable reward functions from expert demonstrations. Its extension to multi-agent settings, however, is difficult due to the more complex notions of rational behaviors. In this paper, we propose MA-AIRL, a new framework for multi-agent inverse reinforcement learning, which is effective and scalable for Markov games with high-dimensional state-action space and unknown dynamics. We derive our algorithm based on a new solution concept and maximum pseudolikelihood estimation within an adversarial reward learning framework. In the experiments, we demonstrate that MA-AIRL can recover reward functions that are highly correlated with ground truth ones, and significantly outperforms prior methods in terms of policy imitation.

研究の動機と目的

マルチエージェント系における報酬設計の難しさと、このような設定における IRL の ill-posed な性質を動機づける。
マルチエージェント IRL に適した新しい均衡概念（logistic stochastic best response equilibrium、LSBRE）を導入する。
LSBRE を MaxEnt RL に結びつけ、扱いやすい学習のために最大疑似尤度推定を用いて MA-AIRL を開発する。
高次元・未知ダイナミクスのマルコフゲームにおいて、報酬関数を回復しポリシーの模倣を可能にする実用的な敵対的 IRL フレームワークを提供する。

提案手法

logistic stochastic best response equilibrium（LSBRE）を、各エージェントが確率的でエントロピー正則化された方法でベストレスポンドする時系列の結合ポリシーの列として定義する。
LSBRE がエネルギーベースの（MaxEnt）定式化で特徴づけられる軌道分布を誘導することを示す。
エージェントごとの条件付きポリシーを最適化する最大疑似尤度目的を導出し、マルチエージェント設定で扱いやすい学習を可能にする。
報酬を推定するパラメータ化された判別器と、重要度加重分配関数推定のための適応サンプラーを用いた敵対的学習フレームワークとして MA-AIRL を構成する。
適応サンプラー q_theta と、ポテンシャルベースのシェーピングにより報酬を回収する構造化された f_{omega,phi} を持つ報酬推定器 g_omega を使用して、報酬の曖昧性を緩和しつつポテンシャルベースの整形まで含めて報酬を回収する。
政策とグラウンドトゥルース風の報酬を回収するために、判別器と生成器の更新を交互に行うアルゴリズム（Algorithm 1）を提供する。

実験結果

リサーチクエスチョン

RQ1MA-AIRL は、マルチエージェント Markov ゲームにおいてデモンストレーションから各エージェントの専門家ポリシーを効率的に回復できるか（ポリシー模倣）？
RQ2LSBRE の下でデモンストレーションを合理化する基底報酬関数を MA-AIRL は正確に回復できるか？
RQ3MA-AIRL は協調・競合タスクにおいて、従来のマルチエージェント模倣学習手法（例： MA-GAIL）と比較してどのように性能を示すか？
RQ4MA-AIRL は未知ダイナミクスを持つ高次元の状態-行動空間に対してスケールし、報酬の識別性を維持できるか？

主な発見

MA-AIRL は実験で基準となる真実と高度に相関する報酬関数を回復する。
MA-AIRL は、混合的な協調・競合タスクにおいて最先端のマルチエージェント模倣学習ベースラインを大きく上回るポリシーを学習する。
MA-AIRL は、LSBREフレームワークと疑似尤度推定を介して MaxEnt IRL と敵対的訓練をマルコフゲームに拡張する。
判別器の出力は報酬推定と一致し、適応サンプラー q_theta が専門家ポリシーを推定することで安定した訓練を可能にする。
MA-AIRL は高次元の状態-行動空間と未知ダイナミクスへのスケーラビリティを示し、従来のタブラーカル/単純構造 IRL 手法が失敗する領域で有効であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。