QUICK REVIEW

[논문 리뷰] Safe Heterogeneous Multi-Agent RL with Communication Regularization for Coordinated Target Acquisition

G Calzolari, Vidya Sumathy|arXiv (Cornell University)|2026. 01. 13.

Reinforcement Learning in Robotics인용 수 0

한 줄 요약

부분 관측성 하에서 목표 확보를 조정하기 위해 그래프 기반 통신, 궤적 인식 안전 필터, 그리고 통신 이질성 정규화기를 사용하는 이기종 에이전트(UAV와 UGV)에 대한 분산 MARL 프레임워크.

ABSTRACT

This paper introduces a decentralized multi-agent reinforcement learning framework enabling structurally heterogeneous teams of agents to jointly discover and acquire randomly located targets in environments characterized by partial observability, communication constraints, and dynamic interactions. Each agent's policy is trained with the Multi-Agent Proximal Policy Optimization algorithm and employs a Graph Attention Network encoder that integrates simulated range-sensing data with communication embeddings exchanged among neighboring agents, enabling context-aware decision-making from both local sensing and relational information. In particular, this work introduces a unified framework that integrates graph-based communication and trajectory-aware safety through safety filters. The architecture is supported by a structured reward formulation designed to encourage effective target discovery and acquisition, collision avoidance, and de-correlation between the agents' communication vectors by promoting informational orthogonality. The effectiveness of the proposed reward function is demonstrated through a comprehensive ablation study. Moreover, simulation results demonstrate safe and stable task execution, confirming the framework's effectiveness.

연구 동기 및 목표

구조적으로 이질적인 에이전트(UAV 및 UGV) 간의 협력 대상 확보를 위한 조정을 가능하게 한다.
인접한 에이전트 간의 관계 정보를 활용하기 위해 그래프 기반 통신을 도입한다.
충돌을 방지하는 궤적 인식 안전 필터로 실시간 안전을 보장한다.
다양하고 저중복적인 에이전트 간 커뮤니케이션을 이질성 정규화를 통해 촉진한다.
비전용 실험 및 시뮬레이션을 통해 학습 정책의 안정성과 안전성을 입증한다.

제안 방법

정책 구조: 각 에이전트는 GATv2Conv 기반의 메시지 전달 단계를 갖춘 그래프 신경망 인코더와 이를 따른 MLP 헤드를 사용한다.
MAPPO를 이용한 중앙집중 학습, 분산 실행. 공동 가치 추정을 위한 DeepSets 기반 크리틱.
에지가 통신 반경 r_c 이내의 에이전트를 연결하도록 동적 그래프 구성하며, 에지 특징에는 상대 위치와 속도가 포함된다.
궤적 기반 안전 필터는 예측된 궤적을 평가하고 미리 정의된 집합에서 가장 큰 가능한 동작 스케일 α를 선택하여 제안된 행동을 안전 집합으로 투영한다.
통신 이질성 정규화는 상관된 메시지 임베딩을 억제하며, c_i^t의 정보적 직교성을 촉진한다.
보상 형태화는 거리 진행, 목표, 충돌 패널티, 그리고 통신 다양성을 결합하여 학습을 안내한다.

실험 결과

연구 질문

RQ1부분 관찰 가능한 환경에서 이질적인 에이전트(UAV 및 UGV)가 조정된 목표 확보 정책을 학습할 수 있는 방법은?
RQ2그래프 기반 통신과 안전 필터를 결합하면 학습 효율성을 유지하면서 충돌 없는 분산 실행을 보장할 수 있는가?
RQ3통신 직교화를 강제하는 것이 작업 성능을 해치지 않으면서 조정 및 메시지의 중복 제거를 개선하는가?

주요 결과

R2, R3, R4 보상 체계에서 MAPPO 기반 정책이 안정적으로 수렴하는 반면, R1은 효과적으로 학습하지 못한다.
특정 보상 체계에서 차동 구동 에이전트가 홀로노믹 에이전트보다 약간 더 높은 보상을 얻는 경우가 많으며, R4는 에이전트 간 작업 부하를 보다 균형 있게 나타낸다.
안전 필터는 예측 구간 내에서 허용 가능한 궤적으로 행동을 제약함으로써 실시간 충돌 방지를 가능하게 한다.
간소화 실험은 목표 지향성, 충돌 회피, 그리고 통신 다양성 항이 전반적인 성능에 중요함을 보여준다.
시뮬레이션 결과는 이질적 팀에서 안전하고 안정적인 작업 실행과 효과적인 조정을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.