QUICK REVIEW

[論文レビュー] Safe Heterogeneous Multi-Agent RL with Communication Regularization for Coordinated Target Acquisition

G Calzolari, Vidya Sumathy|arXiv (Cornell University)|Jan 13, 2026

Reinforcement Learning in Robotics被引用数 0

ひとこと要約

分散型 MARL フレームワークは、グラフベースの通信、軌道認識の安全フィルター、および通信の類似性正則化を用いて、部分観測下での標的獲得を協調する異種エージェント（UAVとUGV）を調整する。

ABSTRACT

This paper introduces a decentralized multi-agent reinforcement learning framework enabling structurally heterogeneous teams of agents to jointly discover and acquire randomly located targets in environments characterized by partial observability, communication constraints, and dynamic interactions. Each agent's policy is trained with the Multi-Agent Proximal Policy Optimization algorithm and employs a Graph Attention Network encoder that integrates simulated range-sensing data with communication embeddings exchanged among neighboring agents, enabling context-aware decision-making from both local sensing and relational information. In particular, this work introduces a unified framework that integrates graph-based communication and trajectory-aware safety through safety filters. The architecture is supported by a structured reward formulation designed to encourage effective target discovery and acquisition, collision avoidance, and de-correlation between the agents' communication vectors by promoting informational orthogonality. The effectiveness of the proposed reward function is demonstrated through a comprehensive ablation study. Moreover, simulation results demonstrate safe and stable task execution, confirming the framework's effectiveness.

研究の動機と目的

UAVとUGVという構造的に異種のエージェント間で協調的標的獲得を行えるようにする。
近傍エージェント間の関係情報を活用するためにグラフベースの通信を組み込む。
衝突を防ぐ軌道認識の安全フィルターでリアルタイムの安全性を確保する。
情報的直交性を促すディスsimilarity 正則化を介してエージェント間の多様で冗長性の低い通信を促進する。
アブレーション研究とシミュレーションを通じて学習ポリシーの安定性と安全性を示す。

提案手法

ポリシーアーキテクチャ: 各エージェントは GATv2Conv ベースのメッセージパッシング段階を持つ Graph Neural Network エンコーダとMLPヘッドを使用する。
MAPPO を用いた中央集権的訓練と分散実行、共同価値推定のための DeepSets ベースのクリティック。
動的グラフ構築：エッジは通信半径 r_c 内のエージェントを結び、エッジ特徴には相対位置と速度を含む。
軌道ベースの安全フィルターは提案アクションを予測軌道を評価して安全集合へ射影し、事前に定義された集合から最大許容スケール α を選択する。
通信ディスsimilarity 正則化は相関したメッセージ埋め込みを抑制し、通信ベクトル c_i^t の情報的直交性を促進する。
報酬設計には距離の進捗、目的地、衝突ペナルティ、通信多様性を組み合わせて学習を誘導する。

実験結果

リサーチクエスチョン

RQ1異種エージェント（UAVとUGV）は部分観測環境で協調的標的獲得ポリシーを学習できるか。
RQ2グラフベースの通信と安全フィルターを組み合わせると、学習効率を維持しつつ分散実行で衝突のない運用を保証できるか。
RQ3通信の直交性を強制することで、協調を向上させ、メッセージの冗長性を減らしつつタスク性能を損なわないか？

主な発見

MAPPO ベースのポリシーは R2, R3, R4 報酬スキームの下で安定収束する一方、R1 は効果的に学習できない。
ディファレンス駆動型のエージェントは、特定の報酬スキーム下で差分駆動型のエージェントよりわずかに高い報酬を達成することがあり、R4 はエージェント間の作業負荷のバランスをより取る。
安全フィルターは予測 horizon 内の適 admissible 軌道へアクションを制約することでリアルタイムの衝突回避を可能にする。
アブレーション研究は、全体的な性能に対して目的志向の目標、衝突回避、通信多様性項の重要性を示す。
シミュレーション結果は、異種チームにおける安全で安定したタスク実行と効果的な協調を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。