[论文解读] The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games
基于 PPO 的方法,在几乎无额外调优且无领域特定改动的情况下,在多个协作型 MARL 基准测试中达到与最新方法相竞争的结果,挑战了“PPO 在多智能体环境中的样本效率较低”的观点。
Proximal Policy Optimization (PPO) is a ubiquitous on-policy reinforcement learning algorithm but is significantly less utilized than off-policy learning algorithms in multi-agent settings. This is often due to the belief that PPO is significantly less sample efficient than off-policy methods in multi-agent systems. In this work, we carefully study the performance of PPO in cooperative multi-agent settings. We show that PPO-based multi-agent algorithms achieve surprisingly strong performance in four popular multi-agent testbeds: the particle-world environments, the StarCraft multi-agent challenge, Google Research Football, and the Hanabi challenge, with minimal hyperparameter tuning and without any domain-specific algorithmic modifications or architectures. Importantly, compared to competitive off-policy methods, PPO often achieves competitive or superior results in both final returns and sample efficiency. Finally, through ablation studies, we analyze implementation and hyperparameter factors that are critical to PPO's empirical performance, and give concrete practical suggestions regarding these factors. Our results show that when using these practices, simple PPO-based methods can be a strong baseline in cooperative multi-agent reinforcement learning. Source code is released at \url{https://github.com/marlbenchmark/on-policy}.
研究动机与目标
- 激发在协作型多智能体强化学习(MARL)环境中重新评估 PPO。
- 评估基于 PPO 的方法(MAPPO 和 IPPO)在多个 MARL 基准上对比强大的离策略基线。
- 确定驱动 PPO 在 MARL 中性能的关键实现与超参数因素,并提供实际的调优指南。
提出的方法
- 将 PPO 适配为多智能体设置,作为 MAPPO(集中化价值函数输入)与 IPPO(独立智能体)。
- 对同质智能体使用参数共享以提高学习效率。
- 应用广义 Advantage 估计 (GAE) 以及优势归一化和价值截断。
- 研究价值函数输入、价值归一化、训练数据使用、裁剪和批大小等关键因素。
- 在四个环境中对比离策略基线(QMix、MADDPG、RODE 等)的基准。
- 在 Marl Benchmark on-policy 仓库发布源代码。
实验结果
研究问题
- RQ1基于 PPO 的方法是否能够在多样的协作基准上达到与离策略 MARL 基线同样或更强的性能?
- RQ2哪些实现选项和超参数最强烈影响 MARL 中的 PPO 性能?
- RQ3集中化价值输入(MAPPO)在多智能体协作中是否相对于独立的 PPO(IPPO)具有优势?
- RQ4可以推导出哪些实用指南来有效调优 MARL 的 PPO?
- RQ5基于 PPO 的方法是否对具有不同代理同质性和观测结构的环境具有鲁棒性?
主要发现
- MAPPO 与 IPPO 在 MPE、SMAC、GRF 与 Hanabi 上实现了与离策略基线相当或更优的最终性能,且样本效率相似。
- 具有集中化价值输入的 MAPPO 在若干 SMAC 地图上通常与 RODE 及其他离策略方法相当或超越。
- 在相同训练预算下,MAPPO 在 Google Football 场景中优于 QMix。
- 五个实用因素(价值归一化、价值函数输入、训练数据使用、策略/价值裁剪、批大小)强烈影响 MARL 中的 PPO 性能,并有明确的最佳做法指导。
- 价值归一化稳定价值学习并在若干基准中提升最终性能。
- 将本地观测与全局状态相结合的集中化价值输入(AS/FP)通常优于仅拼接本地观测或仅由环境提供的全局信息。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。