Skip to main content
QUICK REVIEW

[论文解读] Safe Heterogeneous Multi-Agent RL with Communication Regularization for Coordinated Target Acquisition

G Calzolari, Vidya Sumathy|arXiv (Cornell University)|Jan 13, 2026
Reinforcement Learning in Robotics被引用 0
一句话总结

分散式多智能体强化学习框架,针对异质代理(无人机和无人地面车辆)使用基于图的通信、轨迹感知的安全过滤器,以及通信相似度正则化,在部分观测下协调目标获取。

ABSTRACT

This paper introduces a decentralized multi-agent reinforcement learning framework enabling structurally heterogeneous teams of agents to jointly discover and acquire randomly located targets in environments characterized by partial observability, communication constraints, and dynamic interactions. Each agent's policy is trained with the Multi-Agent Proximal Policy Optimization algorithm and employs a Graph Attention Network encoder that integrates simulated range-sensing data with communication embeddings exchanged among neighboring agents, enabling context-aware decision-making from both local sensing and relational information. In particular, this work introduces a unified framework that integrates graph-based communication and trajectory-aware safety through safety filters. The architecture is supported by a structured reward formulation designed to encourage effective target discovery and acquisition, collision avoidance, and de-correlation between the agents' communication vectors by promoting informational orthogonality. The effectiveness of the proposed reward function is demonstrated through a comprehensive ablation study. Moreover, simulation results demonstrate safe and stable task execution, confirming the framework's effectiveness.

研究动机与目标

  • 实现结构上异质的代理(无人机和无人地面车辆)之间的协同以实现合作目标获取。
  • 引入基于图的通信以利用附近代理之间的关系信息。
  • 通过轨迹感知的安全过滤器实现实时安全,防止碰撞。
  • 通过不相似性正则化促进代理之间的多样化、低冗余通信。
  • 通过消融研究和仿真实验展示学习策略的稳定性与安全性。

提出的方法

  • 策略结构:每个代理使用带有 GATv2Conv 消息传递阶段的图神经网络编码器,随后接一个MLP头。
  • 使用 MAPPO 的集中训练、去中心化执行,带有用于联合价值估计的 DeepSets 基 critic。
  • 动态图构建:边连接在通信半径 r_c 内的代理,边特征包括相对位置和速度。
  • 基于轨迹的安全过滤器通过评估预测轨迹并从预定义集合中选择最大的可行行动尺度 α,将拟议行动投影到安全集合。
  • 一个通信相似度正则化项抑制相关的消息嵌入,鼓励通信向量 c_i^t 的信息正交性。
  • 奖励塑形将距离进展、目标、碰撞惩罚和通信多样性结合起来,引导学习。

实验结果

研究问题

  • RQ1异构代理(无人机和无人地面车辆)在部分可观测环境中如何学习协调的目标获取策略?
  • RQ2基于图的通信结合安全过滤器是否能够在保持学习效率的同时实现无碰撞的去中心化执行?
  • RQ3强制实现通信正交性是否提高协同并减少信息冗余而不损害任务性能?

主要发现

  • 基于 MAPPO 的策略在 R2、R3、R4 奖励方案下收敛稳定,而 R1 未能有效学习。
  • 在某些奖励方案下,差分驱动代理的回报通常略高于全向轮代理,而 R4 显示出更均衡的代理工作量。
  • 安全过滤器通过在预测 horizon 内将行动限制在可接受轨迹上,实现实时的碰撞避免。
  • 消融研究显示目标导向、回避碰撞和通信多样性的项对总体性能的重要性。
  • 仿真结果表明在异质团队中实现安全、稳定的任务执行和有效的协同。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。