[论文解读] Settling the Variance of Multi-Agent Policy Gradients
本文提出了一种多智能体策略梯度(MAPG)的最优基线(OB),通过数学量化智能体数量和多智能体探索对方差的贡献,从而最小化方差。该OB通过解析推导获得,并作为深度强化学习框架中的替代基线实现,显著提升了在StarCraft和Multi-Agent MuJoCo等MARL基准测试中应用PPO和COMA时的训练稳定性和性能。
Policy gradient (PG) methods are popular reinforcement learning (RL) methods where a baseline is often applied to reduce the variance of gradient estimates. In multi-agent RL (MARL), although the PG theorem can be naturally extended, the effectiveness of multi-agent PG (MAPG) methods degrades as the variance of gradient estimates increases rapidly with the number of agents. In this paper, we offer a rigorous analysis of MAPG methods by, firstly, quantifying the contributions of the number of agents and agents' explorations to the variance of MAPG estimators. Based on this analysis, we derive the optimal baseline (OB) that achieves the minimal variance. In comparison to the OB, we measure the excess variance of existing MARL algorithms such as vanilla MAPG and COMA. Considering using deep neural networks, we also propose a surrogate version of OB, which can be seamlessly plugged into any existing PG methods in MARL. On benchmarks of Multi-Agent MuJoCo and StarCraft challenges, our OB technique effectively stabilises training and improves the performance of multi-agent PPO and COMA algorithms by a significant margin.
研究动机与目标
- 对多智能体策略梯度(MAPG)估计器中方差来源进行严格分析。
- 量化智能体数量和多智能体探索对方差估计器的贡献。
- 推导理论上最优的基线(OB),以最小化MAPG中的方差。
- 开发一种适用于深度学习的实用替代基线,实现与现有MARL算法的无缝集成。
- 通过实证验证OB在稳定训练和提升标准MARL基准测试性能方面的有效性。
提出的方法
- 作者在联合策略梯度框架下,推导出最小化MAPG估计器方差的最优基线(OB)的闭式表达式。
- 通过分析智能体数量和联合探索对方差的贡献,推导出一种依赖于状态-动作的基线,以考虑多智能体之间的依赖关系。
- 为深度强化学习提出OB的替代版本,利用经验回放缓冲区中重采样的动作和Q值来估计最优基线,而无需枚举所有联合动作。
- 通过将OB估计值替换其基线组件,将该方法集成到现有的基于策略梯度的MARL算法(如PPO和COMA)中。
- 该方法采用可微、可学习的基线,在保持零偏差的同时最小化方差,利用CTDE设置中优势函数的结构。
- 使用标准策略梯度优化算法,结合OB调整后的优势函数进行训练,从而在多智能体环境中实现稳定且高效的训练。
实验结果
研究问题
- RQ1多智能体策略梯度估计器中高方差的主要来源是什么?
- RQ2能否推导出理论上最优的基线,以最小化MAPG估计器的方差?
- RQ3与COMA的反事实基线等现有基线相比,最优基线在方差减少方面表现如何?
- RQ4在深度强化学习设置中,能否在不引入过高计算成本的情况下有效近似最优基线?
- RQ5所提出的最优基线是否能提升多智能体强化学习基准测试中的训练稳定性和最终性能?
主要发现
- 本文推导出的最优基线(OB)在理论上实现了多智能体策略梯度估计器的最小可能方差,在理论和实践中均优于现有基线。
- OB显著降低了训练方差,在Multi-Agent MuJoCo和StarCraft环境中均带来了更稳定的训练曲线。
- 在多智能体PPO和COMA中应用OB后,最终性能得到显著提升,且在所有评估环境中均表现出一致的增益。
- 采用重采样动作和Q值的替代OB方法,能有效近似理论OB,并实现与深度强化学习框架的无缝集成。
- 实证结果表明,基于OB的算法收敛速度更快,获得的回报更高,尤其在高维、多智能体设置中表现优于原始MAPG和COMA。
- 代码和实现已公开发布,支持可复现性,并可扩展至其他MARL算法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。