[论文解读] Mastering Complex Control in MOBA Games with Deep Reinforcement Learning
本文提出了一种深度强化学习框架,使AI智能体Tencent Solo能够在《王者荣耀》等1v1 MOBA游戏中掌握复杂的操作控制。通过结合可扩展的离策略训练系统与算法创新——包括控制依赖解耦、动作掩码、目标注意力机制以及双裁剪PPO——该智能体实现了超人类水平的表现,击败了各类英雄类型的顶尖职业人类选手。
We study the reinforcement learning problem of complex action control in the Multi-player Online Battle Arena (MOBA) 1v1 games. This problem involves far more complicated state and action spaces than those of traditional 1v1 games, such as Go and Atari series, which makes it very difficult to search any policies with human-level performance. In this paper, we present a deep reinforcement learning framework to tackle this problem from the perspectives of both system and algorithm. Our system is of low coupling and high scalability, which enables efficient explorations at large scale. Our algorithm includes several novel strategies, including control dependency decoupling, action mask, target attention, and dual-clip PPO, with which our proposed actor-critic network can be effectively trained in our system. Tested on the MOBA game Honor of Kings, our AI agent, called Tencent Solo, can defeat top professional human players in full 1v1 games.
研究动机与目标
- 解决1v1 MOBA游戏中动作空间与状态空间的极端复杂性,其复杂度较围棋和Atari游戏高出数个数量级。
- 开发一种可扩展、低耦合的深度强化学习系统,能够在多智能体对抗环境中实现大规模离策略训练。
- 设计一种统一且鲁棒的神经网络架构,能够建模多种英雄类型与复杂的微操动作,且无需依赖人类演示数据。
- 使AI智能体能够在需要规划、欺骗与精确技能连招的实时、部分可观测战斗场景中,超越顶尖职业选手的表现。
提出的方法
- 一种可扩展的离策略深度强化学习系统,具备高度模块化与低耦合性,支持高效的大规模训练。
- 一种带多模态输入编码、解耦控制依赖关系以及基于LSTM的技能连招建模的演员-评论家神经网络。
- 通过动作掩码限制探索过程中的无效动作,提升高维动作空间中的样本效率。
- 目标注意力机制,用于在复杂且动态演变的战斗情境中动态选择最优目标。
- 双裁剪PPO算法,用于稳定训练并确保收敛,在高复杂度环境中优于标准PPO。
- 采用完整轨迹回放(FR)与随机初始帧(RIF)策略,以增强探索能力并加速收敛。
实验结果
研究问题
- RQ1深度强化学习智能体是否能在状态空间与动作空间维度极高的1v1 MOBA游戏中实现人类水平或超人类水平的表现?
- RQ2如何有效解耦控制依赖关系与动作空间复杂度,以实现在复杂实时战略游戏中的稳定训练?
- RQ3注意力机制与动作掩码在部分可观测、动态变化的战斗环境中,能在多大程度上提升样本效率与策略性能?
- RQ4统一的深度强化学习框架是否能够泛化至MOBA 1v1环境中具有截然不同游戏风格的多样化英雄类型?
- RQ5在大规模MOBA训练中,哪些训练配置(如完整轨迹回放与部分轨迹回放、RIF与ZS初始化)能实现最优收敛速度与性能表现?
主要发现
- 使用该框架训练的AI智能体Tencent Solo在1v1《王者荣耀》对战中,对顶尖职业选手的胜率达到了70%至80%。
- 完整轨迹回放(FR)的使用显著提升了AI表现,使胜率提升至70%–80%,而部分轨迹回放(PR)在1000–3000帧的条件下胜率仅为较低水平。
- 随机初始帧(RIF)使训练收敛速度加快15%,但略微降低了最终AI能力,胜率为40%,相较零起点(ZS)初始化有所下降。
- 目标注意力机制与LSTM模块的结合,显著增强了智能体处理复杂技能连招序列与动态目标选择的能力。
- 控制依赖解耦与动作掩码有效提升了高维动作空间中的探索效率,并增强了策略稳定性。
- 双裁剪PPO算法确保了训练过程的稳定收敛,在MOBA 1v1复杂且稀疏的奖励结构下,表现优于标准PPO。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。