QUICK REVIEW

[论文解读] Actor-Attention-Critic for Multi-Agent Reinforcement Learning

Shariq Iqbal, Fei Sha|arXiv (Cornell University)|Oct 5, 2018

Reinforcement Learning in Robotics参考文献 30被引用 289

一句话总结

MAAC 引入一个带注意力机制的集中式评判器，能够选择性地关注其他代理，实现在协作、对抗和混合 MARL 设置中的可扩展去中心化策略。

ABSTRACT

Reinforcement learning in multi-agent scenarios is important for real-world applications but presents challenges beyond those seen in single-agent settings. We present an actor-critic algorithm that trains decentralized policies in multi-agent settings, using centrally computed critics that share an attention mechanism which selects relevant information for each agent at every timestep. This attention mechanism enables more effective and scalable learning in complex multi-agent environments, when compared to recent approaches. Our approach is applicable not only to cooperative settings with shared rewards, but also individualized reward settings, including adversarial settings, as well as settings that do not provide global states, and it makes no assumptions about the action spaces of the agents. As such, it is flexible enough to be applied to most multi-agent learning problems.

研究动机与目标

通过学习集中式评判器，在每个时刻仅关注相关的其他代理，解决多智能体强化学习中的非平稳性和可扩展性。
在保持去中心化执行的同时，允许代理具有异质 rewards 结构和动作空间。
通过基于注意力的多智能体基线和熵正则化学习来改进信用分配。
在不需要全局状态的情况下，展示在协作、对抗和混合环境中的可扩展性与适应性。

提出的方法

为每个代理使用带注意力机制的集中式评判器，以权衡来自其他代理的信息。
将 Q_i 表示为 Q_i^ψ(o,a) = f_i(g_i(o_i,a_i), x_i)，其中 x_i 是其他代理编码信息的加权和。
通过对每个代理共享参数的双线性查询-键机制计算注意力权重 α_j，可能使用多头。
使用多智能体基线的 TD 风格损失共同训练评估器，以计算 A_i(o,a) = Q_i^ψ(o,a) − b(o,a_{ eq i})。
使用包含熵正则化和多智能体基线的优势项来更新各自策略 θ_i，采用策略梯度。
在离散动作的基线计算中，输出每个代理所有可能动作的 Q，以精确期望 Q 的方式扩展到动作离散的情况（可选）。

实验结果

研究问题

RQ1相较于先前的集中学习方法，基于注意力的集中式评判器是否能改善多智能体环境中的学习稳定性和可扩展性？
RQ2对相关代理的动态注意是否改善了在协作、对抗和混合 MARL 环境中的信用分配和性能？
RQ3当代理具有不同的奖励结构和动作空间且全局状态不可用时，MAAC 的表现如何？
RQ4与基于拼接的评判器相比，在复杂交互场景中，MAAC 的扩展性是否更好？

主要发现

算法	环境	MAAC	MAAC（Uniform）	MADDPG+SAC	COMA+SAC	备注
CN (Cooperative Navigation)	Cooperative	-1.74 ± 0.05	-1.89 ± 0.07	-1.76 ± 0.05	-2.09 ± 0.12	Shared rewards, similar action spaces

MAAC 在协作和混合环境中表现具有竞争力，且随着代理数量增加，相较基线显示更好的可扩展性。
注意力机制使代理能够关注相关的其他代理（如 Rover-Tower），并且可以可视化地对准成对代理，而无需显式监督。
在协作宝藏采集任务中，MAAC 在学习到的注意力下的扩展性优于 MADDPG+SAC，随着代理数量增加更明显。
在某些任务中，统一注意力也具有竞争力，但在涉及相关伙伴和子群体互动发生变化的情形（如 Rover-Tower）时，动态注意力更具优势。
经验结果表明，随着代理数量增加，MAAC 的性能保持稳定，而某些基线在规模扩大时性能下降。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。