QUICK REVIEW

[論文レビュー] Benchmarking Multi-Agent Deep Reinforcement Learning Algorithms in Cooperative Tasks

Georgios Papoudakis, Filippos Christianos|arXiv (Cornell University)|Jun 14, 2020

Reinforcement Learning in Robotics被引用数 55

ひとこと要約

本論文は、多様な協調タスクにわたり9つのMARLアルゴリズムを実証的に比較し、独立学習、CTDE、および価値分解が優れる領域を強調し、ベンチマーク用にEPyMARLと新環境2つ（LBF、RWARE）を公開する。

ABSTRACT

Multi-agent deep reinforcement learning (MARL) suffers from a lack of\ncommonly-used evaluation tasks and criteria, making comparisons between\napproaches difficult. In this work, we provide a systematic evaluation and\ncomparison of three different classes of MARL algorithms (independent learning,\ncentralised multi-agent policy gradient, value decomposition) in a diverse\nrange of cooperative multi-agent learning tasks. Our experiments serve as a\nreference for the expected performance of algorithms across different learning\ntasks, and we provide insights regarding the effectiveness of different\nlearning approaches. We open-source EPyMARL, which extends the PyMARL codebase\nto include additional algorithms and allow for flexible configuration of\nalgorithm implementation details such as parameter sharing. Finally, we\nopen-source two environments for multi-agent research which focus on\ncoordination under sparse rewards.\n

研究の動機と目的

独立学習、集中化方策勾配、および価値分解MARL手法を協調タスクで包括的かつ制御された比較を提供する。
さまざまな観測可能性と報酬の sparsity が異なる環境セットでの性能を評価する。
学習結果に対するパラメータ共有やその他の実装上の選択の影響を分析する。
標準化されたMARLベンチマーキングを促進するオープンソースツールと環境を提供する。

提案手法

IL、中央集権化ポリシー勾配、価値分解の3クラスからなる9つのMARLアルゴリズムの系統的評価。
CTDEクラスに対するCentralised Training Decentralised Execution（CTDE）での評価。
環境ごとのグリッドサーチによるハイパーパラメータチューニングと最大・平均評価リターンの報告。
2つのマトリックスゲームと4つのマルチエージェント環境を合わせて25タスクで比較。
パラメータ共有と非共有の設定の分析。

実験結果

リサーチクエスチョン

RQ1独立学習、中央集権型ポリシー勾配、および価値分解MARL手法は、さまざまな協調タスクでどのように性能を発揮するか？
RQ2異なる環境でパラメータ共有は学習結果にどのような影響を与えるか？
RQ3部分観測性と sparse rewards に対して、どのアルゴリズムが最も効果的に対応できるか？
RQ4標準化されたベンチマークとオープンソースツールは、MARL研究の比較可能性と再現性を改善できるか？

主な発見

タスク \\アルゴリズム	IQL	IA2C	IPPO	MADDPG	COMA	MAA2C	MAPPO	VDN	QMIX
Matrix Games Climbing	195.00±67.82	175.00±0.00	175.00±0.00	170.00±10.00	185.00±48.99	175.00±0.00	175.00±0.00	175.00±54.77	175.00±54.77
Penalty k=0	250.00±0.00	250.00±0.00	250.00±0.00	249.98±0.04	250.00±0.00	250.00±0.00	250.00±0.00	250.00±0.00	250.00±0.00
Penalty k=-25	50.00±0.00	50.00±0.00	50.00±0.00	49.97±0.02	50.00±0.00	50.00±0.00	50.00±0.00	50.00±0.00	50.00±0.00
Penalty k=-50	50.00±0.00	50.00±0.00	50.00±0.00	49.98±0.02	50.00±0.00	50.00±0.00	50.00±0.00	50.00±0.00	50.00±0.00
Penalty k=-75	50.00±0.00	50.00±0.00	50.00±0.00	49.97±0.02	50.00±0.00	50.00±0.00	50.00±0.00	50.00±0.00	50.00±0.00
Penalty k=-100	50.00±0.00	50.00±0.00	50.00±0.00	49.97±0.03	50.00±0.00	50.00±0.00	50.00±0.00	50.00±0.00	50.00±0.00
MPE Speaker-Listener	-18.36±4.67	-12.60±3.62*	-13.10±3.50	-13.56±1.73	-30.40±5.18	-10.71±0.38*	-10.68±0.30*	-15.95±2.48	-11.56±0.53
MPE Spread	-132.63±2.22	-134.43±1.15	-133.86±3.67	-141.70±1.74	-204.31±6.30	-129.90±1.63	-133.54±3.08	-131.03±1.85	-126.62±2.96
MPE Adversary	9.38±0.91	12.12±0.44*	12.17±0.32	8.97±0.89	8.05±0.89	12.06±0.45*	11.30±0.38	9.28±0.90	9.67±0.66
MPE Tag	22.18±2.83	17.44±1.31	19.44±2.94	12.50±6.30	8.72±4.42	19.95±7.15*	18.52±5.64	24.50±2.19	31.18±3.81
SMAC 2s_vs_1sc	16.72±0.38	20.24±0.00	20.24±0.01	13.14±2.01	11.04±7.21	20.20±0.05*	20.25±0.00	18.04±0.33	19.01±0.40
SMAC 3s5z	16.44±0.15	18.56±1.31*	13.36±2.08	12.04±0.82	18.90±1.01	19.95±0.05*	20.39±1.14	19.57±0.20	19.66±0.14*
SMAC corridor	15.72±1.77	18.59±0.62	17.97±3.44*	5.85±0.58	7.75±0.19	8.97±0.29	17.14±4.39*	15.25±4.18*	16.45±3.54*
SMAC MMM2	13.69±1.02	10.70±2.77	11.37±1.15	3.96±0.32	6.95±0.27	10.37±1.95	17.78±0.44	18.49±0.31	18.40±0.24*
SMAC 3s_vs_5z	21.15±0.41	4.42±0.02	19.36±6.15*	5.99±0.58	3.23±0.05	6.68±0.55	18.17±4.17*	19.03±5.77*	16.04±2.87
LBF 8x8-2p-2f-c	1.00±0.00	1.00±0.00	1.00±0.00	0.46±0.02	0.61±0.30	1.00±0.00	1.00±0.00	1.00±0.00	0.96±0.07*
LBF 8x8-2p-2f-2s-c	1.00±0.00	1.00±0.00	0.78±0.05	0.70±0.04	0.45±0.15	1.00±0.00	0.85±0.06	1.00±0.00	1.00±0.00
LBF 10x10-3p-3f	0.93±0.02	1.00±0.00	0.98±0.01	0.24±0.04	0.19±0.06	1.00±0.00	0.99±0.01	0.84±0.08	0.84±0.08
LBF 10x10-3p-3f-2s	0.86±0.01	0.94±0.03*	0.70±0.03	0.41±0.03	0.29±0.12	0.96±0.02	0.72±0.03	0.90±0.03	0.90±0.01
LBF 15x15-3p-5f	0.17±0.08	0.89±0.04	0.77±0.08	0.10±0.02	0.08±0.04	0.87±0.06*	0.77±0.02	0.15±0.02	0.09±0.04
LBF 15x15-4p-3f	0.54±0.18	0.99±0.01*	0.98±0.01	0.17±0.03	0.17±0.04	1.00±0.00	0.96±0.02	0.38±0.13	0.15±0.06
LBF 15x15-4p-5f	0.22±0.04	0.93±0.03*	0.67±0.22	0.12±0.06	0.12±0.06	0.95±0.01	0.70±0.25*	0.30±0.04	0.25±0.09
RWARE Tiny 4p	0.72±0.37	26.34±4.60	31.82±10.71	0.54±0.10	1.16±0.15	32.50±9.79	49.42±1.22	0.80±0.28	0.30±0.19
RWARE Small 4p	0.14±0.28	6.54±1.15	19.78±3.12	0.18±0.12	0.16±0.16	10.30±1.48	27.00±1.80	0.18±0.27	0.06±0.08
RWARE Tiny 2p	0.28±0.38	8.18±1.25	20.22±1.76	0.44±0.34	0.48±0.34	8.38±2.59	21.16±1.50	0.12±0.07	0.14±0.19

独立学習は一部のタスクで競争力を持つ一方、部分観測性が高いまたは報酬が sparsity な環境では苦戦する。
CTDE手法（集中化 critic または価値分解）は、協調性が高いタスクや部分観測性のあるタスクで一般に優れており、MAPPOがCTDEアプローチの中で強力な性能を示すことが多い。
価値分解（VDN, QMIX）は多くの環境で他手法と同等かそれ以上の性能を示すことが多いが、RWAREのような非常に sparsity な報酬設定では苦戦することがある。
パラメータ共有は多くの環境で性能を向上させる傾向がある（ただし一部のマトリックスゲームを除く）、特に大規模・疎な、または部分観測性が高いタスクで顕著。
MAPPOとMADDPGの成功は様々であり、MADDPGは多くのタスクで過小評価され、MAPPOは複数の環境で堅牢な性能を発揮することが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。