QUICK REVIEW

[論文レビュー] Episodic Multi-agent Reinforcement Learning with Curiosity-Driven Exploration

Lulu Zheng, Jiarui Chen|arXiv (Cornell University)|Nov 22, 2021

Reinforcement Learning in Robotics被引用数 40

ひとこと要約

EMCは個々のQ値を予測することに基づく好奇心主導の内的報酬を導入し、エピソード記憶を用いてサンプル効率を向上させ、協調性を強力に実現し、SMACベンチマークにおけるMARLのベースラインを上回る。

ABSTRACT

Efficient exploration in deep cooperative multi-agent reinforcement learning (MARL) still remains challenging in complex coordination problems. In this paper, we introduce a novel Episodic Multi-agent reinforcement learning with Curiosity-driven exploration, called EMC. We leverage an insight of popular factorized MARL algorithms that the "induced" individual Q-values, i.e., the individual utility functions used for local execution, are the embeddings of local action-observation histories, and can capture the interaction between agents due to reward backpropagation during centralized training. Therefore, we use prediction errors of individual Q-values as intrinsic rewards for coordinated exploration and utilize episodic memory to exploit explored informative experience to boost policy training. As the dynamics of an agent's individual Q-value function captures the novelty of states and the influence from other agents, our intrinsic reward can induce coordinated exploration to new or promising states. We illustrate the advantages of our method by didactic examples, and demonstrate its significant outperformance over state-of-the-art MARL baselines on challenging tasks in the StarCraft II micromanagement benchmark.

研究の動機と目的

協調的MARLにおけるCTDE下の効率的な協調と探索を動機づける。
探索を導くために個々のQ値を予測することに基づく好奇心駆動のメカニズムを提案する。
学習を正規化し、有益な過去経験を再利用するためにエピソード記憶を用いる。
VDN/QMIX/QPLEXのような線形価値分解フレームワークとの互換性を確保し、スケーラビリティを向上させる。

提案手法

線形価値分解フレームワーク内で個々のQ値の予測誤差を好奇心として定義する。
Agent間の予測Q値と実際のQ値の平均L2距離を intrinsic rewards r^int として計算する。
1ステップTDターゲットを用いて外部報酬と内的報酬を組み合わせた推定モジュールを訓練する。
グローバル状態に関するエピソード記憶を保持し、最良と記憶されたリターンを格納して正則化のためのメモリターゲットHを形成する。
学習安定化のためにターゲットをソフトに更新する（ソフトアップデート）。
好奇心モジュールと記憶をCTDEベースのMARLアルゴリズム（例: VDN/QMIX/QPLEX）に統合してEMCを実現する。

実験結果

リサーチクエスチョン

RQ1個々のQ値を予測して好奇心を導くことは、観測履歴を予測して探索することよりも協調的探索を改善できるか。
RQ2EMCはSMACなどの難しいMARLタスクで最先端のベースラインと比較して優れたパフォーマンスを達成できるか。
RQ3好奇心モジュールとエピソード記憶が学習効率と安定性に与える影響はどの程度か。
RQ4CTDEと価値因子分解の下で、エージェント数の増加に伴うEMCのスケーラビリティはどの程度か。

主な発見

EMCは難易度の高いSMACタスクで最先端のMARLベースラインを大幅に上回る。
難しいマップでは、 corridor や 3s5z_vs_3s6z などのシナリオで最良の性能を達成し、急速な学習進展を示す。
EMCは全17のSMACシナリオで堅牢な全体パフォーマンスを示し、中央値勝率指標で先頭に立つことが多く、複数のマップで最良の結果を達成する。
アブレーションは、難しいタスクには好奇心主導の探索が不可欠であることを示唆し、エピソード記憶は主にサンプル効率を向上させる。
この手法はCTDEパラダイムの下で複数の因子分解方式（VDN/QMIX/QPLEX）と互換性がある。
教育的な実験は、観測履歴を予測するよりもQ値を予測することで協調的探索の利点が生じることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。