QUICK REVIEW

[論文レビュー] Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

David Eckel, Henri Meeß|arXiv (Cornell University)|Feb 25, 2026

Reinforcement Learning in Robotics被引用数 0

ひとこと要約

階層型リードクリティック(HLC)を提案。ネストされた逐次更新スキームとミクスチャー・オブ・エクパーツアクターを備えたマルチエージェント強化学習アーキテクチャで、ローカルおよびグループレベルの視点から学習し、協調・部分観測下の通信なし MARLの性能とサンプル効率を向上させる。

ABSTRACT

Cooperative Multi-Agent Reinforcement Learning (MARL) solves complex tasks that require coordination from multiple agents, but is often limited to either local (independent learning) or global (centralized learning) perspectives. In this paper, we introduce a novel sequential training scheme and MARL architecture, which learns from multiple perspectives on different hierarchy levels. We propose the Hierarchical Lead Critic (HLC) - inspired by natural emerging distributions in team structures, where following high-level objectives combines with low-level execution. HLC demonstrates that introducing multiple hierarchies, leveraging local and global perspectives, can lead to improved performance with high sample efficiency and robust policies. Experimental results conducted on cooperative, non-communicative, and partially observable MARL benchmarks demonstrate that HLC outperforms single hierarchy baselines and scales robustly with increasing amounts of agents and difficulty.

研究の動機と目的

協調・部分観測設定における単一視点MARL（局所対全体）の制約に対処する。
複数の階層レベルから学習し、協調と政策品質を向上させるフレームワークを開発する。
複数のクリティックを組み合わせる際の勾配競合を回避する安定した訓練スキームを提案する。
Lead Critic概念と全状態アクセスを要求せずグループレベル情報を処理できるアーキテクチャを導入する。

提案手法

Lead Criticsによって指導されるエージェントをグループへ組織する階層型Lead Critic (HLC)を提案。エージェントレベルにはローカルクリティックを配置。
受容野を拡大するクリティックによって更新されるアクターをネストされた逐次更新スキームで使用し、各更新後に行動をリサンプリングする。
複数の処理経路を統合するミクスチャー・オブ・エクパーツ風モジュールとクロスアテンションを備えるアクターアーキテクチャを導入する。
CTDEの下でSoft Actor-Critic(SAC)を採用し、ローカルおよびLead Critic信号の両方を取り込むアクター損失を計算する。
Lead CriticsをTransformer-Encoderベースのアーキテクチャとして実装し、グローバル状態ではなく観測-行動対のグループを評価する。

Figure 1: Hierarchical Lead Critic (HLC) structure. Agents are evaluated by all related critics (local critics and Lead Critics) sequentially.

実験結果

リサーチクエスチョン

RQ1複数階層（ローカル、グループレベルのLead Critics、集中型に近い視点）は、部分観測下の協調MARLにおける学習と協調を改善するか。
RQ2ネストされた逐次更新スキームは勾配競合を減らし、単一クリティックベースラインと比べてサンプル効率を改善するか。
RQ3クロスアテンションを備えたミクスチャー・オブ・エクパーツ風アクターアーキテクチャは、学習中の多層ガイダンスをどう支援するか。
RQ4Lead Criticsは通信なしのMARLにおけるエージェント数の増加・タスク難易度の上昇に対してスケーラビリティにどのような影響を与えるか。

主な発見

HLCは協調・非通信・部分観測MARLのベンチマーク全体で単一階層のベースライン（独立したローカルクリティックと集中型クリティック）を上回る。
ネストされた逐次更新スキームは、衝突する勾配を回避することで安定した学習信号と高いサンプル効率を達成する。
クロスアテンションを備えたミクスチャー・オブ・エクパーツ風HLCアクターは、クリティック階層と整合するリッチな表現を生み出し協調を改善する。
HLCはより多くのエージェント数や難易度の高いタスクへのスケーラビリティと、部分観測下での性能と頑健性の向上を示す。
EscortおよびSurveillanceタスクの実験では、HASACおよびISACベースラインと比べてHLCが比類のない性能と頑健性を示す。

Figure 2: HLC sequential updating scheme for a selected agent with a local critic and a Lead Critic.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。