Skip to main content
QUICK REVIEW

[논문 리뷰] Move Evaluation in Go Using Deep Convolutional Neural Networks

Chris J. Maddison, Aja Huang|arXiv (Cornell University)|2014. 12. 20.
Artificial Intelligence in Games참고 문헌 17인용 수 92
한 줄 요약

이 논문은 인간 전문가 가급의 19×19 가급 게임 데이터를 기반으로 훈련한 12층의 깊은 합성곱 신경망(CNN)을 제안하며, 전문가의 수를 직접 예측하여 55%의 수 예측 정확도를 달성한다. 이는 6단 수준의 인간 전문가와 동일한 성능이다. 어떤 검색 기법 없이도 이 CNN은 기존의 GnuGo와 같은 전통적인 프로그램을 능가하며, 최신의 몬테카를로 트리 검색(MCTS) 프로그램과도 맞먹는 성능을 보이며, 깊은 CNN이 복잡한 가급 지식을 효과적으로 학습하고 게임 플레이를 위한 강력한 평가 함수로 활용될 수 있음을 보여준다.

ABSTRACT

The game of Go is more challenging than other board games, due to the difficulty of constructing a position or move evaluation function. In this paper we investigate whether deep convolutional networks can be used to directly represent and learn this knowledge. We train a large 12-layer convolutional neural network by supervised learning from a database of human professional games. The network correctly predicts the expert move in 55% of positions, equalling the accuracy of a 6 dan human player. When the trained convolutional network was used directly to play games of Go, without any search, it beat the traditional search program GnuGo in 97% of games, and matched the performance of a state-of-the-art Monte-Carlo tree search that simulates a million positions per move.

연구 동기 및 목표

  • 가급 게임에서 효과적인 수 평가 함수를 학습하고 표현할 수 있는 깊은 합성곱 신경망(CNN)이 존재하는지 조사하는 것.
  • 인간 전문가 가급 게임을 바탕으로 한 지도 학습을 통해 인간 수준의 수 예측 정확도에 도달하거나 초월하는 정책 네트워크를 얻을 수 있는지 판단하는 것.
  • 훈련된 CNN이 검색 알고리즘에 의존하지 않고도 강력한 수준에서 직접 가급을 두는 데 성공할 수 있는지 평가하는 것.
  • 딥 뉴럴 네트워크를 몬테카를로 트리 검색(MCTS)과 융합하여 전반적인 게임력 향상을 이룰 수 있는지 탐색하는 것.

제안 방법

  • 12층의 깊은 합성곱 신경망은 대규모 전문가 19×19 가급 게임 데이터베이스를 기반으로 지도 학습을 통해 다음 수를 예측하도록 훈련된다.
  • 네트워크는 여러 개의 잔차 블록과 ReLU 활성화 함수를 사용하는 완전 합성곱 아키텍처를 활용하여 가급 위치의 공간 패턴을 엔드 투 엔드로 학습할 수 있다.
  • 수 예측은 네트워크의 최종 레이어에서 가장 높은 확률을 가진 출력을 선택하여 수행되며, 이는 예측된 수를 나타낸다.
  • 검색 통합을 위해 비동기적 노드 평가 기법을 사용한다: 새로운 MCTS 노드는 배치로 처리되어 GPU에서 평가되며, 약 0.15초의 지연 후 검색 트리에 결과가 피드백된다.
  • MCTS 엔진은 UCT 탐색, RAVE, 그리고 단순한 3×3 패턴 기반의 롤아웃 기법과 같은 표준 기법을 사용하여 검색을 이끈다.
  • 성능 평가는 CNN(검색 유무 상관없이)과 GnuGo, Fuego 등의 기준 프로그램 간의 게임 결과를 통해 평가된다.

실험 결과

연구 질문

  • RQ1인간 전문가 가급 게임을 기반으로 훈련된 깊은 합성곱 신경망은 전문가 수준의 수 예측 정확도에 도달할 수 있는가?
  • RQ2깊은 CNN이 어떤 검색 알고리즘도 사용하지 않고도 강력한 수준에서 직접 가급을 두는 데 성공할 수 있는가?
  • RQ3깊은 CNN을 몬테카를로 트리 검색(MCTS)과 효과적으로 융합하여 전반적인 게임력 향상을 이룰 수 있는가?
  • RQ4CNN이 학습한 지식이 퓨즈키, 조세키, 테수지, 코 전투, 영향력 등의 핵심 가급 개념을 암묵적으로 포괄하는가?

주요 결과

  • 12층의 CNN은 검증 세트에서 55%의 수 예측 정확도를 달성하였으며, 동일한 데이터에서 6단 수준의 인간 전문가와 동일한 성능을 보였다.
  • 검색 기법을 전혀 사용하지 않은 상태에서 CNN은 GnuGo와의 대국에서 97%의 승률을 기록하였다. GnuGo는 전통적인 검색 기반 프로그램이다.
  • Pachi(1회 수 예측당 10,000회 롤아웃)와 Fuego(1회 수 예측당 100,000회 롤아웃)와 같은 최신 MCTS 프로그램의 성능과도 맞먹는다.
  • 비동기적 GPU 평가를 사용한 MCTS와 결합된 경우, 동일한 CNN이 검색 없이 사용할 때보다 100,000회 롤아웃을 사용해 87%의 승률을 기록하였다.
  • 명시적인 모델링 없이도 네트워크는 퓨즈키, 조세키, 테수지, 코 전투, 영향력과 같은 복잡한 가급 개념을 암묵적으로 학습하였다.
  • 대규모 단체의 생사 상태를 평가하는 데 약점을 보이며, MCTS가 전역적인 전망 능력에서 뛰어나다는 점을 시사하여 상호보완적임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.