QUICK REVIEW

[論文レビュー] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

Ryan Lowe|arXiv (Cornell University)|Jun 7, 2017

Reinforcement Learning in Robotics参考文献 38被引用数 1,014

ひとこと要約

MADDPGを導入する。訓練時には他のエージェントの行動を条件とする集中型クリティックを用い、実行は分散化する actor-critic 法で、協調・競合・混在するマルチエージェントタスクにおける学習を改善する。さらに、ポリシーのアンサンブルと他者のオンラインモデリングを用いて堅牢性を高める。

ABSTRACT

We explore deep reinforcement learning methods for multi-agent domains. We begin by analyzing the difficulty of traditional algorithms in the multi-agent case: Q-learning is challenged by an inherent non-stationarity of the environment, while policy gradient suffers from a variance that increases as the number of agents grows. We then present an adaptation of actor-critic methods that considers action policies of other agents and is able to successfully learn policies that require complex multi-agent coordination. Additionally, we introduce a training regimen utilizing an ensemble of policies for each agent that leads to more robust multi-agent policies. We show the strength of our approach compared to existing methods in cooperative as well as competitive scenarios, where agent populations are able to discover various physical and informational coordination strategies.

研究の動機と目的

従来のRL（Q学習とポリシー勾配）のマルチエージェント設定への適用における非定常性と高い勾配分散の課題を動機づけて分析する。
集中訓練・分散実行を伴う一般的なマルチエージェント深層強化学習アルゴリズムを提案する。
訓練時に他のエージェントのポリシーへアクセスする集中クリティックを用いながら、局所的実行で学習を可能にする。
他エージェントのオンラインモデリングとポリシーのアンサンブルを用いて安定性と堅牢性を向上させる。

提案手法

すべてのエージェントの行動に条件づけられた集中クリティックを持つ actor-critic ポリシー勾配を拡張する。
エージェント i の勾配を、すべてのエージェントの行動と一部の状態情報を入力とする centralized Q^{pi}_i から導出する。
各エージェントが局所観測のみを使用する分散実行を許容する。
正確なポリシー知識の必要性を緩和するため、他エージェントのポリシーの近似を学習することを任意に許可する。
ロバスト性のために、各エージェントにつき複数のサブポリシーを訓練するポリシーアンサンブルを導入する。

実験結果

リサーチクエスチョン

RQ1集中クリティックが他のエージェントの行動を活用して、局所実行環境での学習を安定化させるか？
RQ2訓練中に他エージェントのポリシーをモデリングまたは近似することは、正確なポリシーが未知の場合に性能を向上させるか？
RQ3サブポリシーのアンサンブルは、非定常性と対 adversarial 行動に対してより頑健なマルチエージェントポリシーを生むか？
RQ4協調タスクと競合タスクにおける MADDPG は単一エージェント DDPG と比較してどうか？
RQ5集中クリティックを用いたマルチエージェント文脈へのポリシー勾配拡張の利点と制限は何か？

主な発見

MADDPG は協調環境と競争環境の双方で DDPG や他のベースラインより優れている。
MADDPG で訓練されたエージェントは、単一エージェント手法が達成しにくい協調的な挙動を学習する。
他エージェントのポリシー近似を用いても収束を遅くすることなく、類似の性能を得られる。
アンサンブルは、対戦的設定において単一ポリシーのエージェントよりも強力で堅牢なポリシーを提供する。
協調および欺瞞タスクにおいて、MADDPG は成功率が高く、相手の成功を抑えるケースが複数観測される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。