[论文解读] Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learning
本文提出两种方法来用经验回放稳定深度多智能体Q学习:多智能体重要性抽样和指纹识别方法以区分来自不同训练阶段的回放数据。
Many real-world problems, such as network packet routing and urban traffic control, are naturally modeled as multi-agent reinforcement learning (RL) problems. However, existing multi-agent RL methods typically scale poorly in the problem size. Therefore, a key challenge is to translate the success of deep learning on single-agent RL to the multi-agent setting. A major stumbling block is that independent Q-learning, the most popular multi-agent RL method, introduces nonstationarity that makes it incompatible with the experience replay memory on which deep Q-learning relies. This paper proposes two methods that address this problem: 1) using a multi-agent variant of importance sampling to naturally decay obsolete data and 2) conditioning each agent's value function on a fingerprint that disambiguates the age of the data sampled from the replay memory. Results on a challenging decentralised variant of StarCraft unit micromanagement confirm that these methods enable the successful combination of experience replay with multi-agent RL.
研究动机与目标
- 在非平稳性条件下,将深度强化学习结合经验回放应用于完全协作的多智能体环境的挑战性动机。
- 开发在代理同时学习时实现稳定且样本效率高的学习方法。
- 在一个具有挑战性、部分可观测的多智能体领域(去中心化的StarCraft微管理)中证明所提出方法的有效性。
- 评估经验回放是否能够与深度多智能体Q学习有效结合。
- 提供关于非平稳性如何影响回放及其缓解方法的分析。
提出的方法
- 通过将其他代理的策略信息加入回放元组并在回放学习中应用重要性加权损失,引入多智能体重要性采样。
- 构造一个增强的(离环境)Bellman 方程,以适应其他代理策略的变化并推导重要性采样校正。
- 提出多智能体指纹,通过将每个代理的Q函数条件化在低维指示器上(例如训练迭代 e 和探索率 ε),以区分回放数据的来源。
- 将深度Q学习扩展到带循环结构的架构以应对部分可观测性,并评估前馈和循环模型。
- 在去中心化的StarCraft微管理域中进行实验,比较 XP、XP+IS 和 XP+FP 变体在有/无回放的情况下的表现。
- 对重要性权重进行截断和归一化,以控制多智能体环境中的方差。
实验结果
研究问题
- RQ1尽管来自并行学习代理存在非平稳性,经验回放是否能在深度多智能体Q学习中实现稳定?
- RQ2重要性采样和数据年龄指纹是否能有效缓解多智能体RL中回放数据的非平稳性?
- RQ3这些方法在去中心化的StarCraft微管理任务中对学习稳定性和样本效率有何影响?
主要发现
- 在没有稳定化的经验回放(NOXP)的情况下,由于探索下降,过拟合于贪婪策略,表现较差。
- 普通经验回放(XP)在稳定性和性能方面优于 NOXP,但不能完全解释来自其他代理的非平稳性。
- 多智能体重要性采样(XP+IS)在前馈模型下带来轻微提升,但在部分可观测设置中是近似的,且可能导致高方差权重。
- 指纹识别(XP+FP)通过区分训练阶段显著提升前馈模型的性能,使回放数据的使用更有效;将 IS 与 FP 结合并不会带来额外收益。
- 循环模型表明轨迹信息在一定程度上缓解非平稳性,指纹通过将阶段相关信息编码到观测中进一步提供帮助。
- 总体而言,在所测试的去中心化StarCraft微管理任务中,XP+FP始终优于基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。