QUICK REVIEW

[论文解读] MAVEN: Multi-Agent Variational Exploration

Anuj Mahajan, Tabish Rashid|arXiv (Cornell University)|Oct 16, 2019

Reinforcement Learning in Robotics被引用 76

一句话总结

MAVEN 将基于价值的多智能体强化学习与由潜变量驱动的分层策略相结合，在集中训练下实现承诺的、持续时间较长的探索，并在去中心化执行中提升在 SMAC 上的性能，相较于 QMIX 等方法有改进。

ABSTRACT

Centralised training with decentralised execution is an important setting for cooperative deep multi-agent reinforcement learning due to communication constraints during execution and computational tractability in training. In this paper, we analyse value-based methods that are known to have superior performance in complex environments [43]. We specifically focus on QMIX [40], the current state-of-the-art in this domain. We show that the representational constraints on the joint action-values introduced by QMIX and similar methods lead to provably poor exploration and suboptimality. Furthermore, we propose a novel approach called MAVEN that hybridises value and policy-based methods by introducing a latent space for hierarchical control. The value-based agents condition their behaviour on the shared latent variable controlled by a hierarchical policy. This allows MAVEN to achieve committed, temporally extended exploration, which is key to solving complex multi-agent tasks. Our experimental results show that MAVEN achieves significant performance improvements on the challenging SMAC domain [43].

研究动机与目标

研究单调价值函数因子化中的表征约束如何影响 CTDE MARL 的探索。
开发 MAVEN，使其在遵循去中心化执行的前提下实现多样化、承诺的探索。
证明潜变量分层策略可以诱导由单调 Q 函数表示的多种探索模式。
在 SMAC 星际争霸 II 基准和受控矩阵游戏中展示实证改进。

提出的方法

引入一个潜在空间 z 来对联合动作值函数进行条件化，从而创建多种探索模式。
使用分层策略来控制 z，同时基于价值的智能体在条件化的 z 下优化 Q 值。
最大化轨迹与 z 之间的互信息，通过变分目标 J_V 学习多样化的探索模式。
将 Q 学习损失与变分互信息奖励及潜在空间目标结合起来，实现端到端训练。
在测试时，在每次剧集开始时对 z 进行采样，并在相应的 Q 函数上执行去中心化的 argmax 以选择行动。

实验结果

研究问题

RQ1单调值函数近似（如 QMIX）是否会由于表征约束而导致探索亚最优？
RQ2潜变量分层策略是否能够在 CTDE MARL 中实现承诺的、时间延展的探索？
RQ3最大化轨迹与潜在模式之间的互信息是否能够产生多样且有用的探索行为？
RQ4条件化潜在变量的单调 Q 函数是否相对于现有方法提升了在如 SMAC 这类具有挑战性的 MARL 基准上的性能？

主要发现

与 QMIX 和 QTRAN 相比，MAVEN 在多个地图上，尤其是更难的地图上，在 SMAC 上取得了显著的性能提升。
潜在空间 z 启用多种探索模式，每个模式形成一个条件于 z 的单调 Q 函数，从而促进承诺的探索。
轨迹与 z 之间的互信息促进了多样化的探索模式并提高学习效率。
消融实验显示对 z 学得的分层策略优于固定或均匀的 z 分布，MI 损失有助于提高多样性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。