QUICK REVIEW

[論文レビュー] MAVEN: Multi-Agent Variational Exploration

Anuj Mahajan, Tabish Rashid|arXiv (Cornell University)|Oct 16, 2019

Reinforcement Learning in Robotics被引用数 76

ひとこと要約

MAVENは価値ベースのMARLを潜在変数駆動型階層方針と組み合わせ、中央訓練で分散実行の下でコミットされた長期的探索を可能にし、SMACでQMIXなどよりも性能を改善します。

ABSTRACT

Centralised training with decentralised execution is an important setting for cooperative deep multi-agent reinforcement learning due to communication constraints during execution and computational tractability in training. In this paper, we analyse value-based methods that are known to have superior performance in complex environments [43]. We specifically focus on QMIX [40], the current state-of-the-art in this domain. We show that the representational constraints on the joint action-values introduced by QMIX and similar methods lead to provably poor exploration and suboptimality. Furthermore, we propose a novel approach called MAVEN that hybridises value and policy-based methods by introducing a latent space for hierarchical control. The value-based agents condition their behaviour on the shared latent variable controlled by a hierarchical policy. This allows MAVEN to achieve committed, temporally extended exploration, which is key to solving complex multi-agent tasks. Our experimental results show that MAVEN achieves significant performance improvements on the challenging SMAC domain [43].

研究の動機と目的

単調性価値関数の因子化における表現制約が CTDE MARL における探索に与える影響を調査する。
分散実行を尊重しつつ、多様でコミットされた探索を可能にする MAVEN を開発する。
潜在変数階層方針が、単調な Q-関数で表現される複数の探索モードを誘発できることを示す。
SMAC StarCraft II ベンチマークおよび制御されたマトリックスゲームで経験的改善を示す。

提案手法

結合行動価値関数を条件づける潜在空間 z を導入し、複数の探索モードを作り出す。
階層方針を用いて z を制御し、価値ベースのエージェントは z を条件とした Q 値を最適化する。
軌跡と z の間の相互情報を最大化し、変分目的関数 J_V を介して多様な探索モードを学習する。
Q学習の損失と変分MI報酬および潜在空間目的を組み合わせ、モデルをエンドツーエンドで訓練する。
テスト時にはエピソード開始時に z をサンプルし、対応する Q 関数の分散化された argmax を行って行動を選択する。

実験結果

リサーチクエスチョン

RQ1単調な価値関数近似（例：QMIX）は、表現制約のために最適でない探索に陥る可能性があるだろうか？
RQ2潜在変数階層方針は CTDE MARL 内でコミットされた長期的探索を可能にするだろうか？
RQ3軌跡と潜在モードの間の相互情報を最大化することは、多様で有用な探索行動を生み出すだろうか？
RQ4潜在条件付きの単調 Q-function は、既存手法と比べて SMAC のような難解な MARL ベンチマークで性能を向上させるだろうか？

主な発見

MAVEN は、特に難易度の高いマップで、QMIX および QTRAN と比較して SMAC で顕著な性能向上を達成する。
潜在空間 z は複数の探索モードを可能にし、それぞれが z に条件づけられた単調 Q-function を形成し、コミットされた探索を促進する。
軌跡と z の間の相互情報は多様な探索モードを促進し、学習効率を改善する。
アブレーションにより、z 上の学習された階層方針は固定または一様な z 分布を上回り、MI損失が多様性の向上に寄与することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。