[论文解读] Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
AlphaZero 通用强化学习算法通过自我对弈从零开始学会国际象棋、将棋和围棋,使用单一神经网络和蒙特卡罗树搜索,在数小时内达到超人水平。它在每个领域击败世界冠军程序。
The game of chess is the most widely-studied domain in the history of artificial intelligence. The strongest programs are based on a combination of sophisticated search techniques, domain-specific adaptations, and handcrafted evaluation functions that have been refined by human experts over several decades. In contrast, the AlphaGo Zero program recently achieved superhuman performance in the game of Go, by tabula rasa reinforcement learning from games of self-play. In this paper, we generalise this approach into a single AlphaZero algorithm that can achieve, tabula rasa, superhuman performance in many challenging domains. Starting from random play, and given no domain knowledge except the game rules, AlphaZero achieved within 24 hours a superhuman level of play in the games of chess and shogi (Japanese chess) as well as Go, and convincingly defeated a world-champion program in each case.
研究动机与目标
- 证明一个单一的通用强化学习算法能够在不具备超出规则之外的领域知识的情况下,对多种复杂棋盘游戏实现白箱起点(从零开始)并达到超人水平。
- 展示利用神经网络和蒙特卡洛树搜索的自我对弈在国际象棋、将棋以及围棋中可以匹配或超越专业引擎。
- 分析与传统领域特定方法相比,该方法的学习动力学、搜索效率和可扩展性。
- 揭示在棋类中学习到的策略是否包含人类式开局,以及该方法是否在不同游戏之间具有泛化性。
提出的方法
- 使用一个通用的 AlphaZero 算法,通过自我对弈从随机棋步开始学习,除了棋规之外不包含领域知识。
- 将棋盘状态和动作表示为神经网络的输入/输出,针对每个游戏进行调整,包括一个策略头和一个值头 f_theta(s) -> (p,v)。
- 通过自我对弈使用受网络引导的蒙特卡洛树搜索对网络进行训练,损失函数结合均方误差和交叉熵,以使 v 和 p 与结果和搜索概率对齐。
- 维护一个持续更新的单一网络,而不是针对迄今最佳玩家进行反复对抗,并对根先验应用 Dirichlet 噪声以实现探索。
- 在围棋、国际象棋和将棋之间应用相同的算法设置,采用游戏特定的输入/输出表示,每步进行 800 次蒙特卡洛树搜索。
- 对比最强的领域专用引擎(国际象棋用 Stockfish,将棋用 Elmo)以及在围棋方面对 AlphaGo Zero 之前代的评估。
实验结果
研究问题
- RQ1一个通用强化学习算法能否在国际象棋和将棋中从随机起步(tabula rasa)实现超人水平?
- RQ2以神经网络为引导的 AlphaZero 的蒙特卡洛树搜索在这些领域与传统的 α-β 搜索引擎相比如何?
- RQ3所学习的策略是否在棋类中探索出人类式的开局,并且这些通用方法是否可跨游戏迁移?
- RQ4不同游戏的学习曲线和达到超人水平的耗时如何随训练规模变化?
主要发现
- AlphaZero 在国际象棋中大约经过 30 万步(4 小时)后通过自我对弈从随机棋步超越 Stockfish。
- AlphaZero 在将棋中约 11 万步(不到 2 小时)后超越 Elmo。
- AlphaZero 在围棋中约 16.5 万步(8 小时)后击败了先前的三日 AlphaGo Zero 版本。
- 在 100 局的锦标赛中,AlphaZero 击败 Stockfish、Elmo 和 3 天 AlphaGo Zero,在对 Stockfish 时未输一局,对 Elmo 或 AG0 变体仅有少量失利。
- AlphaZero 的带神经网络的蒙特卡洛树搜索在思考时间上的扩展性比测试的基线 α-β 引擎更有效,挑战了这些领域搜索优势的假设。
- AlphaZero 在自我对弈中学习并频繁使用常见的人类开局,并从这些开局出发,它击败 Stockfish。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。