QUICK REVIEW

[论文解读] Dota 2 with Large Scale Deep Reinforcement Learning

OpenAI, :|arXiv (Cornell University)|Dec 13, 2019

Reinforcement Learning in Robotics参考文献 37被引用 1,043

一句话总结

OpenAI Five 使用 PPO 训练了一个大规模自我对弈强化学习代理，采用 159M 参数的 LSTM 策略，在数千块 GPU 上进行了超过 10 个月的训练，击败了 Dota 2 世界冠军（OG），对人类对手的胜率达到 99.4%。它还引入了用于持续训练的 surgery，并分析了批量大小、数据质量和长时域的信用分配。

ABSTRACT

On April 13th, 2019, OpenAI Five became the first AI system to defeat the world champions at an esports game. The game of Dota 2 presents novel challenges for AI systems such as long time horizons, imperfect information, and complex, continuous state-action spaces, all challenges which will become increasingly central to more capable AI systems. OpenAI Five leveraged existing reinforcement learning techniques, scaled to learn from batches of approximately 2 million frames every 2 seconds. We developed a distributed training system and tools for continual training which allowed us to train OpenAI Five for 10 months. By defeating the Dota 2 world champion (Team OG), OpenAI Five demonstrates that self-play reinforcement learning can achieve superhuman performance on a difficult task.

研究动机与目标

将强化学习扩展到 Dota 2 这一复杂的、长时间、部分可观测的环境。
开发一个分布式的持续训练系统，以支持在版本迭代的游戏中进行长期实验。
探索名为 surgery 的持续迁移机制，在不进行完全重新训练的情况下，保留并适应随环境变化的学习策略。
通过击败 Dota 2 世界冠军来展示超人类性能，并评估对人类玩家的泛化能力。

提出的方法

在一个中心 4096 单元的 LSTM 的循环策略上使用近端策略优化（PPO）和广义优势估计（GAE），并为五个英雄设置分离的 actor-critic 头。
将高维观测空间处理为紧凑向量，而不是将像素输入渲染到 GPUs。
运行一个大规模、异步的 rollout-optimizer 循环，最多使用 1536 块 GPU，每次更新的总时间步批量约为 2.95 百万。
控制三套训练基础设施：rollouts（在 CPU 上的游戏回合）、前向传播的 GPU（策略采样）和优化器 GPU（梯度更新）。
实现一个名为 surgery 的持续迁移机制，使预训练策略能够适应环境、观测或动作空间的变化，而不必从零重新开始训练。

实验结果

研究问题

RQ1自我对弈强化学习是否能够扩展到掌握像 Dota 2 这样高度复杂、长期、部分可观测的游戏并达到超越人类的表现？
RQ2批量大小、数据质量和异步数据管道如何影响大规模强化学习的学习速度和最终表现？
RQ3哪些机制能够在环境和游戏版本变化中实现持续迁移而不损失性能（surgery）？
RQ4在非常长的时间跨度任务如 Dota 2 中，长期信用分配的学习与利用程度如何？
RQ5该代理在随时间推移的表现如何与职业人类玩家和团队相比？

主要发现

OpenAI Five 在三局两胜的比赛中击败了 Dota 2 世界冠军（Team OG）(2-0)。
在 OpenAI Five Arena 的超过 7,000 场对人类玩家的对战中，OpenAI Five 获胜率为 99.4% 。
该代理平均对游戏事件的反应时间约为 217 毫秒。
增大批量大小带来加速（例如在 Rerun 实验中提高了 2.5 倍），但早期训练中加速呈现次线性。
数据质量因素（陈旧性、样本复用）对学习速度和最终性能有关键影响；将陈旧性维持在接近 0–1 并尽量减少样本复用很重要。
长时域规划的收益明显；以更长的时域重新开始训练可以提高胜率，但在极长时域时收益递减。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。