[论文解读] Move Evaluation in Go Using Deep Convolutional Neural Networks
本文提出一个在人类职业围棋对局上训练的12层深度卷积神经网络(CNN),直接预测职业棋手的落子,实现55%的落子预测准确率——与六段人类职业棋手水平相当。在不使用任何搜索的情况下,该CNN的表现优于传统程序如GnuGo,并与最先进的蒙特卡洛树搜索(MCTS)程序相当,表明深度CNN能够有效学习复杂的围棋知识,并作为强大的评估函数用于对弈。
The game of Go is more challenging than other board games, due to the difficulty of constructing a position or move evaluation function. In this paper we investigate whether deep convolutional networks can be used to directly represent and learn this knowledge. We train a large 12-layer convolutional neural network by supervised learning from a database of human professional games. The network correctly predicts the expert move in 55% of positions, equalling the accuracy of a 6 dan human player. When the trained convolutional network was used directly to play games of Go, without any search, it beat the traditional search program GnuGo in 97% of games, and matched the performance of a state-of-the-art Monte-Carlo tree search that simulates a million positions per move.
研究动机与目标
- 探究深度卷积神经网络是否能够学习并表示围棋的有效落子评估函数。
- 确定是否可以通过从人类职业对局中进行监督学习,获得一个策略网络,其落子预测准确率可达到或超过人类水平。
- 评估训练好的CNN是否能够直接在不依赖搜索算法的情况下,以高水平下围棋。
- 探索将深度神经网络与蒙特卡洛树搜索(MCTS)结合,以提升整体对弈强度。
提出的方法
- 使用大规模专业19×19围棋对局数据库,通过监督学习训练一个12层深度卷积神经网络,以预测下一步落子。
- 网络采用全卷积架构,包含多个残差块和ReLU激活函数,支持端到端学习围棋位置中的空间模式。
- 通过选择网络最后一层输出中概率最高的位置来执行落子预测,即预测的落子。
- 在搜索集成中,采用异步节点评估:新MCTS节点被批量处理并在GPU上评估,结果以约0.15秒的延迟反馈至搜索树。
- MCTS引擎使用标准技术,如UCT探索策略、RAVE(快速平均奖励评估)以及基于简单3×3模式的模拟,以引导搜索过程。
- 通过让CNN(带与不带搜索)与基线程序如GnuGo和Fuego对弈,评估其性能。
实验结果
研究问题
- RQ1在人类职业对局上训练的深度卷积神经网络,是否能达到与专家人类棋手相当的落子预测准确率?
- RQ2深度CNN是否能够在不使用任何搜索算法的情况下,直接以高水平下围棋?
- RQ3深度CNN是否能与蒙特卡洛树搜索有效结合,以提升整体对弈强度?
- RQ4CNN所学习到的知识是否隐式捕捉了围棋中的关键概念,如布局、定式、妙手、劫争和势力控制?
主要发现
- 12层CNN在保留测试集上的落子预测准确率达到55%,与同一数据集上六段人类职业棋手的表现相当。
- 在不使用任何搜索的情况下,该CNN在与GnuGo(基于传统搜索的程序)的对弈中胜率高达97%。
- 该CNN的表现与最先进的MCTS程序(如Pachi,每步10,000次模拟;Fuego,每步100,000次模拟)相当。
- 当与MCTS结合,并采用异步GPU评估时,系统在每步100,000次模拟的情况下,对弈无搜索版本的CNN胜率为87%。
- 尽管未显式建模这些元素,该网络隐式学习到了复杂的围棋概念,如开局定式、定式、妙手、劫争和势力控制。
- 该网络在评估大范围棋形的生死状态方面存在弱点,表明其与MCTS具有互补性,后者在全局前瞻方面表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。