QUICK REVIEW

[论文解读] ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero

Yuandong Tian, Jerry Ma|arXiv (Cornell University)|Feb 12, 2019

Artificial Intelligence in Games参考文献 20被引用 42

一句话总结

ELF OpenGo 是一个针对围棋的 AlphaZero 风格的开源可重实现，达到超越人类的性能，并提供广泛的训练分析、数据集和消融研究以帮助研究。

ABSTRACT

The AlphaGo, AlphaGo Zero, and AlphaZero series of algorithms are remarkable demonstrations of deep reinforcement learning's capabilities, achieving superhuman performance in the complex game of Go with progressively increasing autonomy. However, many obstacles remain in the understanding of and usability of these promising approaches by the research community. Toward elucidating unresolved mysteries and facilitating future research, we propose ELF OpenGo, an open-source reimplementation of the AlphaZero algorithm. ELF OpenGo is the first open-source Go AI to convincingly demonstrate superhuman performance with a perfect (20:0) record against global top professionals. We apply ELF OpenGo to conduct extensive ablation studies, and to identify and analyze numerous interesting phenomena in both the model training and in the gameplay inference procedures. Our code, models, selfplay datasets, and auxiliary data are publicly available at https://ai.facebook.com/tools/elf-opengo/.

研究动机与目标

提供一个适用于商用硬件的 AlphaZero 风格围棋 AI 的开源可重实现。
训练一个具备超越人类水平的 ELF OpenGo 模型，并发布预训练模型、自对弈数据和辅助评估数据。
分析训练动态、消融实验和实际考量，以揭示影响围棋大规模深度强化学习的因素。

提出的方法

用神经策略网络和值网络引导的蒙特卡洛树搜索重新实现 AlphaZero 风格的围棋训练。
在商用 GPU 上通过自对弈训练一个具备 256 通道、20 层的残差网络，进行 150 万个小批次（约 30 亿个棋局状态）。
使用固定的回放缓冲区和带有基于 MCTS 的自对弈数据的 SGD 优化来学习策略和价值目标。
对 PUCT 常量、虚拟损失、回合次数和训练动态进行广泛的消融实验。
通过人与人比赛和 AI 对 AI 的基准测试来验证强度，并与原型模型及 LeelaZero 进行比较。

实验结果

研究问题

RQ1在商用硬件条件下，开源 AlphaZero 风格的围棋智能体的强度和行为是怎样的？
RQ2关键超参数（PUCT、虚拟损失）和回合次数如何影响训练效率和最终强度？
RQ3哪些训练动态（梯子步、残局与布局学习）表征了 ELF OpenGo 的学习过程？
RQ4ELF OpenGo 在强度和行为方面与人类玩家及现有的开源 AI 相比如何？

主要发现

最终模型在直接与人类对比的评价中，对顶尖职业选手以 20:0 的战绩实现了超越人类的表现。
训练在约 16 天内使用 2000 个自对弈 GPU 和 8 个训练 GPU，产生了一个 20-block 的模型，约有 30 亿个棋局状态和约 2000 万个自对弈棋局。
原型模型对 4 位前 30 名职业选手进行了 20 局对抗，结果为 20:0，而 ELF OpenGo 对 LeelaZero 的胜率为 980:18（约 700 Elo）。
将 MCTS 展开展为两倍时，作为白棋时大约提升 200 Elo，作为黑棋时约 35-200 Elo，表明收益不对称。
梯子（前瞻）步是慢慢学习的，尚未完全掌握，凸显卷积网络在围棋中的归纳偏置。
训练方差显著；降低学习率并不一定提升性能，反而可能降低自对弈数据的多样性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。