QUICK REVIEW

[論文レビュー] Actor-Attention-Critic for Multi-Agent Reinforcement Learning

Shariq Iqbal, Fei Sha|arXiv (Cornell University)|Oct 5, 2018

Reinforcement Learning in Robotics参考文献 30被引用数 289

ひとこと要約

MAACは集中型 critic に注意機構を組み込み、他のエージェントに selective に注意を向けることで、協調・対戦・混合 MARL 設定におけるスケーラブルな分散ポリシーを実現します。

ABSTRACT

Reinforcement learning in multi-agent scenarios is important for real-world applications but presents challenges beyond those seen in single-agent settings. We present an actor-critic algorithm that trains decentralized policies in multi-agent settings, using centrally computed critics that share an attention mechanism which selects relevant information for each agent at every timestep. This attention mechanism enables more effective and scalable learning in complex multi-agent environments, when compared to recent approaches. Our approach is applicable not only to cooperative settings with shared rewards, but also individualized reward settings, including adversarial settings, as well as settings that do not provide global states, and it makes no assumptions about the action spaces of the agents. As such, it is flexible enough to be applied to most multi-agent learning problems.

研究の動機と目的

多エージェント RL の非定常性とスケーラビリティを解消するため、各時刻に関連する他のエージェントのみに注意を向ける集中型 critic を学習する。
分散実行を維持しつつ、エージェント間で異種の報酬構造と行動空間を許容する。
注意機構に基づくマルチエージェントベースラインとエントロピー正則化学習を通じて信用割り当てを改善する。
グローバル状態を要求せず、協調・対戦・混合環境においてスケーラビリティと適応性を実証する。

提案手法

各エージェントに対して他のエージェントからの情報を重み付けする注意機構を備えた集中型 critic を用いる。
Q_i を Q_i^ψ(o,a) = f_i(g_i(o_i,a_i), x_i) と表現し、x_i は他エージェントのエンコード情報の加重和である。
ベクトル二重性のクエリ-キー機構により、エージェント間で共有パラメータを用い、複数ヘッドを利用することで注意重み α_j を計算する。
マルチエージェントベースラインを用いたTD型損失で critic を共同訓練し、A_i(o,a) = Q_i^ψ(o,a) − b(o,a_{ eq i}) を計算する。
エージョリティ正則化とマルチエージェントベースラインを利得項の一部として含む方策勾配で個別ポリシー θ_i を更新する。
基礎となるベースラインを計算する際、個々のエージェントに対してすべての離散的な行動に対する Q を出力することで、離散アクションの正確な期待値への拡張を optionally 行う。

実験結果

リサーチクエスチョン

RQ1集中型の注意機構を持つ critic は、従来の集中トレーニング手法と比べて学習の安定性とスケーラビリティを向上させるか？
RQ2関連するエージェントに動的に注意を向けることは、協調・対戦・混合 MARL 環境における信用割り当てと性能を改善するか？
RQ3エージェント間で報酬構造と行動空間が異なり、グローバル状態が利用できない場合、MAAC はどのように性能を発揮するか？
RQ4エージェント数の増加に対して MAAC は、結合結合型 critic よりもスケールするか？

主な発見

Algorithm	Environment	MAAC	MAAC（Uniform）	MADDPG+SAC	COMA+SAC	Notes
CN (Cooperative Navigation)	Cooperative	-1.74 ± 0.05	-1.89 ± 0.07	-1.76 ± 0.05	-2.09 ± 0.12	Shared rewards, similar action spaces

MAAC は協調・混合環境で競争力のある性能を達成し、エージェント数が増えるにつれてベースラインよりスケーラビリティが向上する。
注意機構はエージェントが関連する他者（例: Rover-Tower）に焦点を当てることを可能にし、対応するエージェントをペアリングして注意する様子を可視化でき、明示的な監視は不要。
学習済み注意を用いた MAAC は、協調宝物回収タスクにおいてエージェント数が増加しても MADDPG+SAC よりスケールする。
一様注意は一部のタスクで競合力を持つが、動的な注意は relevant partner やサブグループ相互作用が変動する状況（例: Rover-Tower）で有利になる。
実証的結果は、エージェント数の増加に伴い MAAC が性能を維持する一方で、スケールとともに性能が低下する一部のベースラインとは異なることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。