QUICK REVIEW

[论文解读] PIC: Permutation Invariant Critic for Multi-Agent Deep Reinforcement Learning

Iou-Jen Liu, Raymond A. Yeh|arXiv (Cornell University)|Oct 31, 2019

Reinforcement Learning in Robotics被引用 29

一句话总结

本文提出了一种用于多智能体深度强化学习的排列不变评论家（Permutation Invariant Critic, PIC），通过图神经网络确保在任意智能体排序下价值估计的一致性。PIC 提升了样本效率和可扩展性，使训练成功扩展至最多 200 名智能体——是原始 MPE 环境的 30 倍，且在测试阶段的每集奖励相比基线方法提高了 15% 至 50%。

ABSTRACT

Sample efficiency and scalability to a large number of agents are two important goals for multi-agent reinforcement learning systems. Recent works got us closer to those goals, addressing non-stationarity of the environment from a single agent's perspective by utilizing a deep net critic which depends on all observations and actions. The critic input concatenates agent observations and actions in a user-specified order. However, since deep nets aren't permutation invariant, a permuted input changes the critic output despite the environment remaining identical. To avoid this inefficiency, we propose a 'permutation invariant critic' (PIC), which yields identical output irrespective of the agent permutation. This consistent representation enables our model to scale to 30 times more agents and to achieve improvements of test episode reward between 15% to 50% on the challenging multi-agent particle environment (MPE).

研究动机与目标

解决由于非排列不变评论家导致的多智能体深度强化学习中的样本效率低下与可扩展性受限问题。
克服多层感知机（MLP）评论家因智能体排序不同而对同一环境状态输出不同结果的问题，从而影响学习效率。
在大规模智能体数量（最多 200 名）的环境中实现有效学习，而标准评论家在此类场景下无法收敛。
通过引入智能体特定属性，支持同质与异质智能体的建模。
通过将多智能体粒子环境（MPE）的训练速度提升 30 倍，提升训练效率并支持大规模严格评估。

提出的方法

提出一种基于图神经网络的排列不变评论家（PIC），将智能体的观测与动作作为集合进行处理，确保所有智能体排序下的输出完全一致。
采用具有可学习消息传递层的图网络架构，通过对称聚合实现跨智能体的信息聚合，从而强制实现排列不变性。
通过引入智能体属性增强图结构，以建模具有不同观测空间、动作空间或角色的异质智能体。
在 MADDPG 风格的框架中使用集中式价值函数训练评论家，其中评论家可观测所有智能体的状态与动作。
实现一种经过优化的数据加载与并行化的改进版 MPE 环境，相比原始实现实现 30 倍的速度提升。
采用全连接图与 K-近邻图等图结构，消融实验表明全连接图在所有评估任务中表现更优。

实验结果

研究问题

RQ1排列不变评论家是否能提升多智能体深度强化学习中的样本效率与可扩展性？
RQ2在评论家中强制实现排列不变性是否能确保不同智能体排序下的价值估计一致性？
RQ3所提出的 PIC 是否可扩展至远超以往可行规模的智能体数量（例如 200 名）？
RQ4与标准 MLP 评论家及数据增强型 MLP 评论家相比，PIC 在最终性能与训练稳定性方面表现如何？
RQ5引入智能体属性是否能有效建模合作型多智能体任务中的异质智能体？

主要发现

在多个 MPE 任务中，PIC 的平均测试每集奖励比基线 MLP 评论家高出 15% 至 50%，且通过 t 检验（p < 0.05）确认具有统计显著性。
随着智能体数量的增加，评论家损失比（MLP / PIC）持续上升，表明在高维设置下 PIC 提供了显著更精确的价值估计。
使用 PIC 的训练可在最多 200 名智能体的环境中成功学习，而基线 MADDPG 在大规模场景下无法学习到有效策略。
MPE 环境的 30 倍加速使得 30 名智能体的训练可在 5 小时内完成，而原始设置下需超过 100 小时。
数据增强无法显著提升 MLP 评论家的性能，甚至在某些情况下导致性能下降，凸显了启发式排序缓解方法的局限性。
在所有评估任务中，全连接图结构的表现均优于 K-近邻图，表明在合作性设置中全局连接性对价值估计具有优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。