QUICK REVIEW

[论文解读] SCC: an efficient deep reinforcement learning agent mastering the game of StarCraft II

Xiangjun Wang, Junxiao Song|arXiv (Cornell University)|Dec 24, 2020

Artificial Intelligence in Games参考文献 22被引用 28

一句话总结

SCC 是一种样本高效的深度强化学习智能体，在 StarCraft II 中实现了大师级表现，其计算量仅为 AlphaStar 的十分之一。通过优化神经网络架构，利用小样本的高质量模仿学习，并在基于联赛的强化学习中采用智能体分支机制，SCC 击败了顶尖人类玩家，并发现了人类对战中未曾出现的新策略。

ABSTRACT

AlphaStar, the AI that reaches GrandMaster level in StarCraft II, is a remarkable milestone demonstrating what deep reinforcement learning can achieve in complex Real-Time Strategy (RTS) games. However, the complexities of the game, algorithms and systems, and especially the tremendous amount of computation needed are big obstacles for the community to conduct further research in this direction. We propose a deep reinforcement learning agent, StarCraft Commander (SCC). With order of magnitude less computation, it demonstrates top human performance defeating GrandMaster players in test matches and top professional players in a live event. Moreover, it shows strong robustness to various human strategies and discovers novel strategies unseen from human plays. In this paper, we will share the key insights and optimizations on efficient imitation learning and reinforcement learning for StarCraft II full game.

研究动机与目标

在计算资源受限的条件下，开发高性能的 StarCraft II AI 智能体。
降低在复杂即时战略游戏（如 StarCraft II）中深度强化学习的样本与计算需求。
在未见过的地图和种族上实现稳健的泛化能力，同时保持强大的反制策略韧性。
通过强化学习中的高效探索，发现新颖的、非人类的策略。
为资源受限环境下的深度强化学习研究提供可扩展、高效的框架。

提出的方法

采用两阶段训练流程：先在人类对战回放数据上进行监督式模仿学习，随后进行基于联赛的强化学习。
通过将输入小地图尺寸从 128×128 减少到 64×64，优化神经网络架构，在性能损失极小的情况下显著提升效率。
应用基于注意力的机制，如分组 Transformer、注意力池化以及条件拼接注意力，以增强特征表示能力。
使用小规模但高质量的对战回放数据集（4,638 场对战）并结合大批次微调，实现优异的模仿学习性能。
引入智能体分支机制，高效训练主智能体与反制智能体，实现对多样化对手策略的动态适应。
采用优先级虚构自我对弈机制，在联赛训练中聚焦于更强的对手，从而提升策略的鲁棒性。

实验结果

研究问题

RQ1在显著减少计算资源的前提下，深度强化学习智能体是否能在 StarCraft II 中达到顶尖人类玩家的水平？
RQ2当使用小规模高质量对战回放数据集而非大规模数据时，模仿学习的效率如何？
RQ3强化学习智能体在未见过的地图和种族上，其泛化能力在多大程度上不受显式训练的影响？
RQ4强化学习中的高效探索是否能导致在复杂即时战略游戏中发现新颖的、非人类的策略？
RQ5哪些架构与训练优化手段使得深度强化学习在完整 StarCraft II 游戏中实现高样本效率？

主要发现

在监督学习阶段，SCC 在与内置精英 AI 对战中取得了 97% 的胜率，表明其在极低计算量下仍具备强大的策略表现。
在测试对战中，SCC 击败了大师级人类玩家，在多个技能等级下五战全胜。
在实战对战中，SCC 以 2:0 的比分连续击败了顶尖职业选手 TIME 和 TooDming，两人均为大师冠军。
SCC 发现并执行了一种新颖策略——大规模登陆的维京战机，该策略在人类对战中极为罕见，后被 StarCraft 社区采纳。
在训练过程中，SCC 的平均操作频率（APM）从约 250 上升至约 400，接近顶尖人类玩家的水平。
尽管计算资源有限，SCC 展现出强大的泛化能力，在未见过的地图以及面对 Zerg 和 Protoss 等不同种族时均表现优异。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。