QUICK REVIEW

[论文解读] Deep Coordination Graphs

Wendelin Böhmer, Vitaly Kurin|arXiv (Cornell University)|Sep 27, 2019

Graph Theory and Algorithms参考文献 50被引用 42

一句话总结

DCG 引入了一种深度强化学习方法，其在具有共享参数和低秩回报的协调图上对联合价值函数进行分解，从而实现多智能体任务的可扩展端到端 Q-learning。

ABSTRACT

This paper introduces the deep coordination graph (DCG) for collaborative multi-agent reinforcement learning. DCG strikes a flexible trade-off between representational capacity and generalization by factoring the joint value function of all agents according to a coordination graph into payoffs between pairs of agents. The value can be maximized by local message passing along the graph, which allows training of the value function end-to-end with Q-learning. Payoff functions are approximated with deep neural networks that employ parameter sharing and low-rank approximations to significantly improve sample efficiency. We show that DCG can solve predator-prey tasks that highlight the relative overgeneralization pathology, as well as challenging StarCraft II micromanagement tasks.

研究动机与目标

激励合作型多智能体强化学习（MARL），并解决联合行动空间的指数级增长。
提出一个深度协调图（DCG），将联合 Q 值分解为成对回报和智能体效用。
通过在回报函数之间共享参数和使用局部信息，实现可扩展的训练。
结合低秩近似以高效处理大动作空间。
探索集中训练/去中心化执行（CTDE），以及训练阶段的潜在特权信息。

提出的方法

将 Q 值表示为一个带成对回报 f^ij 和每个智能体效用 f^i 的协调图。
通过一个共同的循环网络，在所有回报和效用函数之间共享参数，条件化于智能体历史。
对回报矩阵 f^ij 进行低秩分解，将输出减少到 2KA（K 为秩，A 为动作数）。
采用信息传递（最大和/置信传播）在给定图拓扑的情况下最大化局部贪婪动作。
在训练期间可选地添加特权偏置 v^φ(s)（DCG-S），用于全局状态信息。
通过对 f^ij 与 f^ji 取平均，扩展到对置换不变的回报，以实现拓扑转移。

实验结果

研究问题

RQ1一个分解的 Q 函数在协调图上，是否比完全分散的基线更好地捕捉协同行动？
RQ2参数共享和低秩回报近似是否在大规模 MARL 设置中提高样本效率？
RQ3不同的图拓扑（全连接、循环、线、星形）如何影响学习鲁棒性和性能？
RQ4DCG 是否能在复杂任务上超越诸如 QMIX、VDN、QTRAN 和 IQL 等最先进方法？
RQ5将特权训练信息纳入是否能提升性能（DCG-S）？
RQ6key_findings）（
RQ7table_headers empty?
RQ8table_rows empty？

主要发现

DCG 在具有挑战性的捕猎-被捕猎者以及 StarCraft II 微管理任务上优于基线 MARL 方法。
全连接的 DCG 能可靠地解决对未协同行动有强惩罚的任务，而非共享或拓扑受限的 DCG 显示出更高的方差或失败。
低秩回报近似在显著提升样本效率的同时不会带来显著的性能损失。
DCG 能在某些设置下比 VDN、QMIX、IQL，甚至 QTRAN 更好地表示联合行动值，特别是在协同探索下。
图拓扑强烈影响鲁棒性；全连接图表现最好，而稀疏拓扑在不同随机种子之间方差较大。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。