Skip to main content
QUICK REVIEW

[論文レビュー] LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent Reinforcement Learning

Mingyu Yang, Jian Zhao|arXiv (Cornell University)|May 5, 2022
Sports Analytics and Performance被引用数 22
ひとこと要約

LDSA は協調 MARL における動的サブタスク割り当てを、サブタスクをエンコードし、学習能力に基づいてエージェントを割り当て、デコーダー指向の表現依存ポリシーを各サブタスクに用いることで学習し、SMAC と GRF での性能を向上させる。

ABSTRACT

Cooperative multi-agent reinforcement learning (MARL) has made prominent progress in recent years. For training efficiency and scalability, most of the MARL algorithms make all agents share the same policy or value network. However, in many complex multi-agent tasks, different agents are expected to possess specific abilities to handle different subtasks. In those scenarios, sharing parameters indiscriminately may lead to similar behavior across all agents, which will limit the exploration efficiency and degrade the final performance. To balance the training complexity and the diversity of agent behavior, we propose a novel framework to learn dynamic subtask assignment (LDSA) in cooperative MARL. Specifically, we first introduce a subtask encoder to construct a vector representation for each subtask according to its identity. To reasonably assign agents to different subtasks, we propose an ability-based subtask selection strategy, which can dynamically group agents with similar abilities into the same subtask. In this way, agents dealing with the same subtask share their learning of specific abilities and different subtasks correspond to different specific abilities. We further introduce two regularizers to increase the representation difference between subtasks and stabilize the training by discouraging agents from frequently changing subtasks, respectively. Empirical results show that LDSA learns reasonable and effective subtask assignment for better collaboration and significantly improves the learning performance on the challenging StarCraft II micromanagement benchmark and Google Research Football.

研究の動機と目的

  • タスクをサブタスクに分解することによって、協調 MARL における訓練の複雑さと行動の多様性のバランスを取る必要性を動機づける。
  • 膨大なドメイン知識なしでサブタスクを学習するフレームワークを開発する。
  • コラボレーションを向上させるために、動的かつ能力ベースのエージェント割り当てをサブタスクへ適用できるようにする。
  • サブタスク表現と結合したサブタスクごとのポリシーを学習し、サブタスク内での共有を促進し、サブタスク間の多様性を高める。

提案手法

  • 識別情報に基づいて各サブタスクのベクトル表現を生成するサブタスクエンコーダを導入する。
  • エージェントの軌跡/行動-観測履歴エンコーダを用いて能力表現を取得し、サブタスク表現とのコサイン類似度を計算してソフトマックス分布によるサブタスク選択を行う。
  • 微分可能な方法でサブタスク割り当てをサンプルするために Straight-Through Gumbel-Softmax を適用する。
  • サブタスクデコーダを用いてサブタスク表現をポリシーパラメータへマッピングし、サブタスクの識別情報を異なるポリシーに結びつける。
  • (i) 意味のある分解を促進するためにサブタスク表現のペア間多様性を最大化、(ii) 隣接タイムステップ間のサブタスク選択分布の KL 発散を最小化して訓練を安定化。
  • 分散実行を可能にしつつグローバル Q 値を得るために QMIX 風の混合ネットワークで訓練する。

実験結果

リサーチクエスチョン

  • RQ1LDSA は挑戦的な協調 MARL ベンチマークでベースラインを上回れるか?
  • RQ2提案された正則化項は分解の質と訓練の安定性を向上させるか?
  • RQ3LDSA のどの構成要素が性能向上に最も寄与するか?
  • RQ4LDSA は訓練を通じて解釈可能で合理的な動的サブタスク割り当てを提供できるか?

主な発見

  • LDSA は 14 の SMAC シナリオ全体で学習性能を著しく向上させ、ベースラインを上回り、中央値テスト勝率で平均約 7% の利得を達成する。
  • サブタスク分離を強制しサブタスクの切替を安定化させる正則化項は性能に寄与する。これらを除くと結果が低下し、表現多様性正則化項の影響が大きい。
  • アブレーションにより、能力ベースのサブタスク選択が性能に最も寄与し、サブタスクデコーダや単なるパラメータ数の増加よりも大きいことが示される。
  • 可視化は、同程度の能力を持つエージェントが特定のサブタスクを解決するためにクラスタリングし、学習を効果的に共有する動的で合理的なサブタスク割り当てを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。