QUICK REVIEW

[論文レビュー] Deep Implicit Coordination Graphs for Multi-agent Reinforcement Learning

Sheng Li, Jayesh K. Gupta|arXiv (Cornell University)|Jun 19, 2020

Reinforcement Learning in Robotics参考文献 50被引用数 38

ひとこと要約

DICGは自己注意とグラフ畳み込みを用いて動的な暗黙の協調グラフを学習し、中央集権的と分散型MARLのバランスを取り、捕食者-被食者、SMAC、交通信号交差点タスクで協調を改善します。

ABSTRACT

Multi-agent reinforcement learning (MARL) requires coordination to efficiently solve certain tasks. Fully centralized control is often infeasible in such domains due to the size of joint action spaces. Coordination graph based formalization allows reasoning about the joint action based on the structure of interactions. However, they often require domain expertise in their design. This paper introduces the deep implicit coordination graph (DICG) architecture for such scenarios. DICG consists of a module for inferring the dynamic coordination graph structure which is then used by a graph neural network based module to learn to implicitly reason about the joint actions or values. DICG allows learning the tradeoff between full centralization and decentralization via standard actor-critic methods to significantly improve coordination for domains with large number of agents. We apply DICG to both centralized-training-centralized-execution and centralized-training-decentralized-execution regimes. We demonstrate that DICG solves the relative overgeneralization pathology in predatory-prey tasks as well as outperforms various MARL baselines on the challenging StarCraft II Multi-agent Challenge (SMAC) and traffic junction environments.

研究の動機と目的

結合行動空間が大きく、静的な協調グラフでは十分でない多エージェントRLにおいて、より良い協調の必要性を動機づける。
観測から動的な協調グラフを推定し、グラフニューラルネットワークを用いて共同行動値または行動を計算するDICGを導入する。
CTCEとCTDEレジームを通じた中央集権実行と分散実行の間のトレードオフを可能にする。
DICGが相対的な過一般化を抑制し、SMACや交通信号交差点のような複雑なMARLタスクでベースラインを上回ることを示す。

提案手法

エージェント埋め込みから隣接行列Mを用いた暗黙的でソフトな協調グラフを学習する自己注意モジュールを用いる。
M上でグラフ畳込みを適用してメッセージを伝搬させ、エージェント間の情報を統合する。
二つの使用モードを提供する：中央訓練・中央実行(CTCE)用のDICG-CEと、中央訓練・分散実行(CTDE)として中央ベースラインを用いるDICG-DE。
DICGモジュール全体を、利得推定のためにジョイント行動または中央ベースラインを用いる標準的な actor-critic 法（PPO）でエンドツーエンドに訓練する。
エンコーダはエージェント間でパラメータを共有し、観測 o_i から埋め込み e_i を生成する。これを元に μ_ij = softmax_j attention(e_i, e_j) を計算する。
最終埋め込み Ê は、m 個のグラフ畳込み層の後に E(0) への残差接続を持って形成される。
DICG-CE は Ê を用いてエージェントの行動を生成し、DICG-DE は Ê を用いて利得推定のための中央のクリティック基準を推定する。

実験結果

リサーチクエスチョン

RQ1動的に学習される暗黙の協調グラフは、ドメイン固有のヒューリスティクスを用いずにマルチエージェントの協調を改善できるのか。
RQ2注意機構ベースのグラフ構造とGCNを統合することは、 MARLタスクにおける相対的過一般化を緩和するか。
RQ3CTCEとCTDEレジームの下で、DICGは完全に中央集権化されたベースラインや分散ベースラインと比べてどのように動作するか。
RQ4DICG埋め込みは、生の観測よりも他のエージェントの行動や価値を予測するのにより有用か。

主な発見

アプローチ	8m_vs_9m	3s_vs_5z	6h_vs_8z
DCG	55 ± 10%	85 ± 3%	10 ± 5%
VDN	49 ± 5%	72 ± 10%	0
QMIX	60 ± 11%	95 ± 1%	5 ± 5%
CENT-LSTM	42 ± 6%	0	0
DEC-LSTM	65 ± 16%	94 ± 5%	0
DICG-CE-LSTM	72 ± 11%	96 ± 3%	9 ± 9%
DICG-DE-LSTM	87 ± 6%	99 ± 1%	0

DICGは捕食者-被食者タスクにおける相対的過一般化を解決し、完全中央集権型または分散型の手法が苦戦する状況で効果を発揮する。
DICGは StarCraft II Multi-Agent Challenge (SMAC) のシナリオと交通信号交差点で、勝率とサンプル効率の点でベースラインを上回る。
学習されたアテンション重みは協調の要求に適応する（罰則が増えるにつれて遠くのエージェントへの注意が高まるなど）。
DICG適用後の埋め込みは、DICG適用前の埋め込みより他エージェントの行動を予測するのに有効であり、暗黙の協調推論が成功していることを示す。
SMACでは、DICG-DE-LSTMが複数のマップで最も高く、最も安定した勝率を達成し、DCG、VDN、QMIXのベースラインを上回る。
交通信号交差点では、DICG-DE-MLPが中程度および難モードで堅調な性能を発揮し、いくつかの分散型ベースラインおよび一部の中央集権型ベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。