QUICK REVIEW

[論文レビュー] Learning Implicit Credit Assignment for Cooperative Multi-Agent Reinforcement Learning

Meng Zhou, Ziyu Liu|arXiv (Cornell University)|Jul 6, 2020

Reinforcement Learning in Robotics参考文献 54被引用数 47

ひとこと要約

LICA は協調 MARL におけるクレジット割り当てを暗黙的に扱うポリシーベースの CTDE 手法を導入し、ハイパーネットワーク混合クリティックと適応的エントロピーを用いて協調 MARL におけるクレジット割り当てを暗黙的に対処します。Multi-Agent Particle Environments および StarCraft II micromanagement で強力な成果を示します。

ABSTRACT

We present a multi-agent actor-critic method that aims to implicitly address the credit assignment problem under fully cooperative settings. Our key motivation is that credit assignment among agents may not require an explicit formulation as long as (1) the policy gradients derived from a centralized critic carry sufficient information for the decentralized agents to maximize their joint action value through optimal cooperation and (2) a sustained level of exploration is enforced throughout training. Under the centralized training with decentralized execution (CTDE) paradigm, we achieve the former by formulating the centralized critic as a hypernetwork such that a latent state representation is integrated into the policy gradients through its multiplicative association with the stochastic policies; to achieve the latter, we derive a simple technique called adaptive entropy regularization where magnitudes of the entropy gradients are dynamically rescaled based on the current policy stochasticity to encourage consistent levels of exploration. Our algorithm, referred to as LICA, is evaluated on several benchmarks including the multi-agent particle environments and a set of challenging StarCraft II micromanagement tasks, and we show that LICA significantly outperforms previous methods.

研究の動機と目的

明示的なクレジット割り当てなしに、共有報酬の下で協調ポリシーの学習を動機づける。
状態条件付きハイパーネットワークを通じてより豊かな勾配情報を提供する集中型クリティックを開発する。
適応的エントロピー正則化によって学習中の持続的探索を保証する。
難易度の高い協調ベンチマークで LICA を評価し、最先端手法と比較する。

提案手法

集中型クリティックを、状態を個々の行動表現を混合して結合Q推定へと変換する重みの集合を写像するハイパーネットワークとして定式化する。
混合クリティックを介して政策勾配を計算し、分散型確率的ポリシーのエンドツーエンド最適化を可能にする。
TD(lambda) ターゲットを用いた一般化されたアドバンテージ推定でオンポリシーにクリティックを訓練し、安定性のためにターゲットクリティックを使用することもある。
より情報量の多い勾配を得るために、サンプルされた行動ではなく行動分布パラメータをクリティックへ入力することによりポリシーを訓練することを任意とする。
探索を維持するため、現在のポリシーエントロピーに反比例してエントロピー勾配の大きさをスケーリングする適応的エントロピー正則化を導入する。
2つの訓練 regime を提供する：(i) 離散 action に対して Gumbel-Softmax を用いた標準的な行動サンプリング、(ii) 行動分布パラメータを直接クリティックへの入力として使用する。

実験結果

リサーチクエスチョン

RQ1明示的なベースラインや差分報酬を必要とせず、状態条件付きの混合クリティックから暗黙的なクレジット割り当ては生じ得るか？
RQ2ハイパーネットワークベースのクリティックは、標準のMLPクリティックと比べてクレジット帰属と共同ポリシーの質を改善するか？
RQ3適応的エントロピー正則化は協調 MARL における探索と収束にどう影響するか？
RQ4行動分布パラメータをクリティック入力として使用することが学習効率と安定性に与える影響は何か？
RQ5提案手法は多様な協調タスクと行動空間に対して堅牢か？

主な発見

LICA はマルチエージェント粒子環境および StarCraft II micromanagement タスクで、既存手法と比べて競争力のあるまたは優れた性能を達成する。
混合クリティックは、単調な価値分解を超える協調ポリシー学習を支える、より豊かな状態-行動勾配情報を提供する。
適応的エントロピー正則化は、複雑な場面でより一貫した探索とより速い収束をもたらす。
SC2 シナリオでは、行動分布パラメータをクリティック入力として使用することが、より速く安定したポリシー収束につながる。
構成要素のアブレーションにより、混合クリティックの必須性と代替的なポリシー勾配定式の利点が示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。