QUICK REVIEW

[论文解读] Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Yaodong Yang, Jianye Hao|arXiv (Cornell University)|Feb 10, 2020

Reinforcement Learning in Robotics参考文献 20被引用 26

一句话总结

本文提出Q值路径分解（QPD），一种用于合作深度多智能体强化学习（MARL）中多智能体信用分配的新型方法，利用积分梯度将全局Q值沿轨迹路径分解为各智能体的贡献。QPD在具有挑战性的《星际争霸II》微操任务中取得最先进性能，尤其在复杂且异构的设置下（如3s5z和3s5z_vs_3s6z），优于以往方法。

ABSTRACT

Recently, deep multiagent reinforcement learning (MARL) has become a highly active research area as many real-world problems can be inherently viewed as multiagent systems. A particularly interesting and widely applicable class of problems is the partially observable cooperative multiagent setting, in which a team of agents learns to coordinate their behaviors conditioning on their private observations and commonly shared global reward signals. One natural solution is to resort to the centralized training and decentralized execution paradigm. During centralized training, one key challenge is the multiagent credit assignment: how to allocate the global rewards for individual agent policies for better coordination towards maximizing system-level's benefits. In this paper, we propose a new method called Q-value Path Decomposition (QPD) to decompose the system's global Q-values into individual agents' Q-values. Unlike previous works which restrict the representation relation of the individual Q-values and the global one, we leverage the integrated gradient attribution technique into deep MARL to directly decompose global Q-values along trajectory paths to assign credits for agents. We evaluate QPD on the challenging StarCraft II micromanagement tasks and show that QPD achieves the state-of-the-art performance in both homogeneous and heterogeneous multiagent scenarios compared with existing cooperative MARL algorithms.

研究动机与目标

解决合作深度多智能体强化学习中的多智能体信用分配问题，确保全局奖励能公平分配给各智能体以实现有效协调。
克服以往价值分解方法（如VDN、QMIX、QTRAN）在全局与个体Q值关系上施加的严格函数形式或假设限制。
通过提供准确且自动推导的个体Q值监督信号，实现在部分可观测合作多智能体系统中的有效集中式训练与去中心化执行。
提升在复杂、异构多智能体场景中的学习稳定性和性能，这些场景中现有方法往往表现不佳或完全失效。

提出的方法

利用深度学习中的积分梯度归因方法，计算每个智能体的状态-动作对在轨迹路径上对全局Q值的贡献。
在集中式训练过程中，将基于积分梯度的归因结果用作个体智能体的Q值监督信号。
采用路径积分方法，通过在基线（零输入）与实际输入之间沿轨迹路径插值来计算归因。
设计多通道评论网络，通过拼接各智能体特征求解异构智能体表征的保留问题，提升价值函数估计性能。
在集中式评论网络中采用模块化网络结构，以处理高维联合状态-动作特征，提升训练稳定性。
使用分解后的Q值作为目标训练个体Q值网络，实现具备协调行为的去中心化策略执行。

实验结果

研究问题

RQ1与以往的价值分解技术相比，积分梯度是否能提供一种更准确且通用的将全局Q值分解为个体智能体贡献的方法？
RQ2在复杂多智能体环境中，分解步骤数量如何影响QPD方法的性能与训练稳定性？
RQ3QPD是否能在具有挑战性的《星际争霸II》微操任务中学习到更优的协调策略，特别是在现有方法失效的异构且高度复杂的场景中？
RQ4使用拼接方式的多通道评论网络是否能提升异构多智能体设置下的表征能力与性能？
RQ5在胜率与策略协调质量方面，QPD相较于QMIX和QTRAN等最先进MARL算法，优势程度如何？

主要发现

QPD在所有测试的《星际争霸II》微操地图中均达到最先进性能，包括极具挑战性的3s5z和3s5z_vs_3s6z场景，而此前方法在这些场景中均失败。
在3s5z场景中，QPD学习到高度协调的策略——斥灵单位从侧翼包抄敌方斥灵单位，优先攻击影魔单位，而QMIX无法学习此类复杂协调行为。
在3s5z_vs_3s6z场景中，QPD是唯一成功学习到获胜策略的方法，能有效协调斥灵单位牵制敌方单位，同时集中攻击敌方影魔单位。
消融实验表明，5步分解已能达到与10步和25步相当的性能，表明QPD无需高计算成本即可实现精确归因。
采用拼接方式的多通道评论网络略微提升了性能，证明保留智能体特异性表征有助于提升价值函数学习。
QPD在复杂异构设置下性能稳定且具有竞争力，在同质与异质多智能体场景中均优于QMIX和QTRAN。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。