Skip to main content
QUICK REVIEW

[论文解读] Deep Coordination Graphs

Wendelin Böhmer, Vitaly Kurin|arXiv (Cornell University)|Sep 27, 2019
Graph Theory and Algorithms参考文献 50被引用 42
一句话总结

DCG 引入了一种深度强化学习方法,其在具有共享参数和低秩回报的协调图上对联合价值函数进行分解,从而实现多智能体任务的可扩展端到端 Q-learning。

ABSTRACT

This paper introduces the deep coordination graph (DCG) for collaborative multi-agent reinforcement learning. DCG strikes a flexible trade-off between representational capacity and generalization by factoring the joint value function of all agents according to a coordination graph into payoffs between pairs of agents. The value can be maximized by local message passing along the graph, which allows training of the value function end-to-end with Q-learning. Payoff functions are approximated with deep neural networks that employ parameter sharing and low-rank approximations to significantly improve sample efficiency. We show that DCG can solve predator-prey tasks that highlight the relative overgeneralization pathology, as well as challenging StarCraft II micromanagement tasks.

研究动机与目标

  • 激励合作型多智能体强化学习(MARL),并解决联合行动空间的指数级增长。
  • 提出一个深度协调图(DCG),将联合 Q 值分解为成对回报和智能体效用。
  • 通过在回报函数之间共享参数和使用局部信息,实现可扩展的训练。
  • 结合低秩近似以高效处理大动作空间。
  • 探索集中训练/去中心化执行(CTDE),以及训练阶段的潜在特权信息。

提出的方法

  • 将 Q 值表示为一个带成对回报 f^ij 和每个智能体效用 f^i 的协调图。
  • 通过一个共同的循环网络,在所有回报和效用函数之间共享参数,条件化于智能体历史。
  • 对回报矩阵 f^ij 进行低秩分解,将输出减少到 2KA(K 为秩,A 为动作数)。
  • 采用信息传递(最大和/置信传播)在给定图拓扑的情况下最大化局部贪婪动作。
  • 在训练期间可选地添加特权偏置 v^φ(s)(DCG-S),用于全局状态信息。
  • 通过对 f^ij 与 f^ji 取平均,扩展到对置换不变的回报,以实现拓扑转移。

实验结果

研究问题

  • RQ1一个分解的 Q 函数在协调图上,是否比完全分散的基线更好地捕捉协同行动?
  • RQ2参数共享和低秩回报近似是否在大规模 MARL 设置中提高样本效率?
  • RQ3不同的图拓扑(全连接、循环、线、星形)如何影响学习鲁棒性和性能?
  • RQ4DCG 是否能在复杂任务上超越诸如 QMIX、VDN、QTRAN 和 IQL 等最先进方法?
  • RQ5将特权训练信息纳入是否能提升性能(DCG-S)?
  • RQ6key_findings)(
  • RQ7table_headers empty?
  • RQ8table_rows empty?

主要发现

  • DCG 在具有挑战性的捕猎-被捕猎者以及 StarCraft II 微管理任务上优于基线 MARL 方法。
  • 全连接的 DCG 能可靠地解决对未协同行动有强惩罚的任务,而非共享或拓扑受限的 DCG 显示出更高的方差或失败。
  • 低秩回报近似在显著提升样本效率的同时不会带来显著的性能损失。
  • DCG 能在某些设置下比 VDN、QMIX、IQL,甚至 QTRAN 更好地表示联合行动值,特别是在协同探索下。
  • 图拓扑强烈影响鲁棒性;全连接图表现最好,而稀疏拓扑在不同随机种子之间方差较大。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。