QUICK REVIEW

[論文レビュー] Move Evaluation in Go Using Deep Convolutional Neural Networks

Chris J. Maddison, Aja Huang|arXiv (Cornell University)|Dec 20, 2014

Artificial Intelligence in Games参考文献 17被引用数 92

ひとこと要約

本稿では、人間のプロ棋士の対局データを用いて学習した12層の深層畳み込みニューラルネットワーク（CNN）を提案する。このCNNは、熟練者の手を直接予測し、55%の手予測精度を達成し、6段のプロ棋士と同等の性能を示した。探索を一切用いずとも、GnuGoなどの伝統的なプログラムを上回り、最新のモンテカルロ木探索（MCTS）プログラムと同等の性能を示した。これは、深層CNNが複雑なゴーゲームの知識を効果的に学習でき、実戦における強力な評価関数として機能しうることを示している。

ABSTRACT

The game of Go is more challenging than other board games, due to the difficulty of constructing a position or move evaluation function. In this paper we investigate whether deep convolutional networks can be used to directly represent and learn this knowledge. We train a large 12-layer convolutional neural network by supervised learning from a database of human professional games. The network correctly predicts the expert move in 55% of positions, equalling the accuracy of a 6 dan human player. When the trained convolutional network was used directly to play games of Go, without any search, it beat the traditional search program GnuGo in 97% of games, and matched the performance of a state-of-the-art Monte-Carlo tree search that simulates a million positions per move.

研究の動機と目的

ゴーゲームにおいて、深層畳み込みニューラルネットワーク（CNN）が効果的な手の評価関数を学習・表現できるかどうかを調査すること。
人間のプロ棋士の対局データを用いた教師あり学習によって、人間レベルの手予測精度に達するか、それを上回るポリシー・ネットワークを構築できるかどうかを特定すること。
学習済みCNNが、探索アルゴリズムに依存せずに、直接的にゴーを強力なレベルでプレイできるかどうかを評価すること。
深層ニューラルネットワークをモンテカルロ木探索（MCTS）と統合することで、ゲーム強度を向上させられるかどうかを検討すること。

提案手法

12層の深層畳み込みニューラルネットワークを、大規模な19×19ゴーゲームのプロ棋士対局データベースを用いて教師あり学習で訓練し、次の手を予測する。
ネットワークは、複数の残差ブロックとReLU活性化関数を備えた完全畳み込みアーキテクチャを採用しており、ゴーゲームの配置における空間的パターンをエンドツーエンドで学習可能である。
手の予測は、ネットワークの最終層が出力する確率が最も高いマスを選択することで実行される。
探索統合のため、非同期ノード評価を採用している：新しいMCTSノードをバッチ処理し、GPUで評価し、約0.15秒の遅延を伴って探索木に結果をフィードバックする。
MCTSエンジンは、標準的な技術（UCT探索、RAVE、3×3パターンに基づく単純なロールアウト）を用いて探索をガイドする。
性能評価は、CNN（探索あり・なし）とGnuGo や Fuego などのベースラインプログラムとの対局によって実施する。

実験結果

リサーチクエスチョン

RQ1人間のプロ棋士の対局データを学習対象とした深層畳み込みニューラルネットワークは、熟練者のプロ棋士と同等の手予測精度を達成できるか？
RQ2深層CNNは、いかなる探索アルゴリズムにも依存せずに、ゴーを強力なレベルで直接プレイできるか？
RQ3深層CNNは、モンテカルロ木探索（MCTS）と効果的に統合され、全体のゲーム強度を向上させられるか？
RQ4CNNが学習した知識は、形状、定石、手筋、コ戦、影響力といった重要なゴーゲームの概念を暗黙的に捉え込んでいるか？

主な発見

12層のCNNは、保留されたテストセットにおいて55%の手予測精度を達成し、同じデータでテストした6段のプロ棋士と同等の性能を示した。
探索を一切用いずとも、CNNはGnuGo（伝統的な探索ベースのプログラム）と対戦し、97%の勝率を記録した。
Pachi（1手あたり10,000回のロールアウト）やFuego（1手あたり100,000回のロールアウト）といった最新のMCTSプログラムと同等の性能を示した。
非同期GPU評価を用いたMCTS統合により、同じCNN（探索なし）と対戦した際、100,000回のロールアウトを用いて87%の勝率を記録した。
明示的なモデリングなしに、ネットワークは fuseki、joseki、tesuji、ko 戦、影響力といった複雑なゴーゲームの概念を暗黙的に学習していた。
大規模なグループの生死の判断においては弱みを示しており、MCTSがグローバルな先読みに優れていることと補完的であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。