QUICK REVIEW

[論文レビュー] Multi-Agent Reinforcement Learning: A Report on Challenges and Approaches

Sanyam Kapoor|arXiv (Cornell University)|Jul 25, 2018

Reinforcement Learning in Robotics参考文献 19被引用数 29

ひとこと要約

本稿は、協調的・競合的環境における非定常性、報酬割り当て、部分的観測可能性の課題に焦点を当て、マルチエージェント強化学習（MARL）の包括的分析を提示する。中心的な価値関数と分散型方策を用いる分散型エージェント・集中型コントローラー（DAC）フレームワークを提唱し、Pommermanなどの環境でCOMAおよびQMIXアーキテクチャを用いてその有効性を実証した。これにより、強力なマルチエージェント連携と高いサンプル効率が達成された。

ABSTRACT

Reinforcement Learning (RL) is a learning paradigm concerned with learning to control a system so as to maximize an objective over the long term. This approach to learning has received immense interest in recent times and success manifests itself in the form of human-level performance on games like extit{Go}. While RL is emerging as a practical component in real-life systems, most successes have been in Single Agent domains. This report will instead specifically focus on challenges that are unique to Multi-Agent Systems interacting in mixed cooperative and competitive environments. The report concludes with advances in the paradigm of training Multi-Agent Systems called extit{Decentralized Actor, Centralized Critic}, based on an extension of MDPs called extit{Decentralized Partially Observable MDP}s, which has seen a renewed interest lately.

研究の動機と目的

マルチエージェント強化学習に特有の課題、すなわち非定常性、報酬割り当て、部分的観測可能性を特定・分析すること。
分散型実行を伴う集中型トレーニングがMARLの不安定性と報酬割り当ての問題をどのように克服できるかを評価すること。
分散型エージェント・集中型コントローラー（DAC）パラダイムが、複雑で部分的観測可能な環境において実用的であることを示すこと。
Pommermanのような2対2チームベースのゲームを含む、現実世界のマルチエージェント環境へのDAC手法の応用を検討すること。

提案手法

エージェントが部分的な情報しか観測しない環境をモデル化するため、分散型部分的観測マルコフ意思決定過程（Dec-POMDP）フレームワークを採用する。
連合行動価値を推定する集中型コントローラーを用い、アドバンテージ関数を介して方策勾配のための反事後ベースライン推定を可能にする：$ A^a(s,\mathbf{u}) = Q(s,\mathbf{u}) - \sum_{u^{\prime a}} \pi^a(u^{\prime a}|\tau^a) Q(s, (\mathbf{u}^{-a}, u^{\prime a})) $。
混合ネットワークを用いて価値関数分解における単調性を強制するQMIXアーキテクチャを適用し、絶対的重み出力を用いてグローバル最適性を保持する。
変化する相手の行動に耐性を持つため、決定論的方策勾配とアンサンブル方策を用いたトレーニングパラダイムを導入する。
非マルコフ的性質を有するマルチエージェント環境に対処するため、ゲート付き再帰型ネットワークを用いて隠れ状態をモデル化する。
トレーニング中は集中型価値推定を、推論時には分散型実行を用いてエンドツーエンドでエージェントを訓練する。

実験結果

リサーチクエスチョン

RQ1報酬が疎である協調的・競合的マルチエージェント環境において、報酬割り当てを効果的に管理する方法は何か？
RQ2部分的観測性を有するマルチエージェント設定において、集中型コントローラーが学習安定性とパフォーマンスをどの程度向上できるか？
RQ3価値関数分解における単調性制約は、スケーラブルなマルチエージェント学習を可能にしつつ、グローバル最適性を保持できるか？
RQ4サンプル効率および方策収束の観点から、DACフレームワークは完全に分散型アプローチと比べてどの程度優れているか？
RQ52対2のPommermanゲームのように、多様な味方・相手の行動方針を有する複雑な現実世界の環境に対し、DACパラダイムは一般化可能か？

主な発見

分散型エージェント・集中型コントローラー（DAC）フレームワークは、協調的・競合的環境におけるマルチエージェント強化学習のトレーニング安定性とパフォーマンスを顕著に向上させる。
価値関数分解における単調性を強制するQMIXは、グローバル最適性を維持し、独立的Q学習と比較して優れた連合行動価値推定を達成する。
COMAにおける反事後ベースライン推定の使用により、連合方策の文脈において個々のエージェントの行動が及ぼす影響を正確に評価できる報酬割り当てが可能になる。
Pommermanにおける実験では、DACで訓練されたエージェントが強固な連携を達成し、新たな味方に対しても一般化可能であることが示され、優れた方策の転送性が裏付けられた。
競合的自己対戦と事前学習済みエージェントの統合により、初期化をランダムから行う場合と比較して、サンプル効率とパフォーマンスが向上した。
特に方策アンサンブルと組み合わせた場合、変化する相手の行動に起因する非定常性に対しても、フレームワークは耐性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。