QUICK REVIEW

[논문 리뷰] Move Evaluation in Go Using Deep Convolutional Neural Networks

Chris J. Maddison, Aja Huang|arXiv (Cornell University)|2014. 12. 20.

Artificial Intelligence in Games참고 문헌 17인용 수 92

한 줄 요약

이 논문은 인간 전문가 가급의 19×19 가급 게임 데이터를 기반으로 훈련한 12층의 깊은 합성곱 신경망(CNN)을 제안하며, 전문가의 수를 직접 예측하여 55%의 수 예측 정확도를 달성한다. 이는 6단 수준의 인간 전문가와 동일한 성능이다. 어떤 검색 기법 없이도 이 CNN은 기존의 GnuGo와 같은 전통적인 프로그램을 능가하며, 최신의 몬테카를로 트리 검색(MCTS) 프로그램과도 맞먹는 성능을 보이며, 깊은 CNN이 복잡한 가급 지식을 효과적으로 학습하고 게임 플레이를 위한 강력한 평가 함수로 활용될 수 있음을 보여준다.

ABSTRACT

The game of Go is more challenging than other board games, due to the difficulty of constructing a position or move evaluation function. In this paper we investigate whether deep convolutional networks can be used to directly represent and learn this knowledge. We train a large 12-layer convolutional neural network by supervised learning from a database of human professional games. The network correctly predicts the expert move in 55% of positions, equalling the accuracy of a 6 dan human player. When the trained convolutional network was used directly to play games of Go, without any search, it beat the traditional search program GnuGo in 97% of games, and matched the performance of a state-of-the-art Monte-Carlo tree search that simulates a million positions per move.

연구 동기 및 목표

가급 게임에서 효과적인 수 평가 함수를 학습하고 표현할 수 있는 깊은 합성곱 신경망(CNN)이 존재하는지 조사하는 것.
인간 전문가 가급 게임을 바탕으로 한 지도 학습을 통해 인간 수준의 수 예측 정확도에 도달하거나 초월하는 정책 네트워크를 얻을 수 있는지 판단하는 것.
훈련된 CNN이 검색 알고리즘에 의존하지 않고도 강력한 수준에서 직접 가급을 두는 데 성공할 수 있는지 평가하는 것.
딥 뉴럴 네트워크를 몬테카를로 트리 검색(MCTS)과 융합하여 전반적인 게임력 향상을 이룰 수 있는지 탐색하는 것.

제안 방법

12층의 깊은 합성곱 신경망은 대규모 전문가 19×19 가급 게임 데이터베이스를 기반으로 지도 학습을 통해 다음 수를 예측하도록 훈련된다.
네트워크는 여러 개의 잔차 블록과 ReLU 활성화 함수를 사용하는 완전 합성곱 아키텍처를 활용하여 가급 위치의 공간 패턴을 엔드 투 엔드로 학습할 수 있다.
수 예측은 네트워크의 최종 레이어에서 가장 높은 확률을 가진 출력을 선택하여 수행되며, 이는 예측된 수를 나타낸다.
검색 통합을 위해 비동기적 노드 평가 기법을 사용한다: 새로운 MCTS 노드는 배치로 처리되어 GPU에서 평가되며, 약 0.15초의 지연 후 검색 트리에 결과가 피드백된다.
MCTS 엔진은 UCT 탐색, RAVE, 그리고 단순한 3×3 패턴 기반의 롤아웃 기법과 같은 표준 기법을 사용하여 검색을 이끈다.
성능 평가는 CNN(검색 유무 상관없이)과 GnuGo, Fuego 등의 기준 프로그램 간의 게임 결과를 통해 평가된다.

실험 결과

연구 질문

RQ1인간 전문가 가급 게임을 기반으로 훈련된 깊은 합성곱 신경망은 전문가 수준의 수 예측 정확도에 도달할 수 있는가?
RQ2깊은 CNN이 어떤 검색 알고리즘도 사용하지 않고도 강력한 수준에서 직접 가급을 두는 데 성공할 수 있는가?
RQ3깊은 CNN을 몬테카를로 트리 검색(MCTS)과 효과적으로 융합하여 전반적인 게임력 향상을 이룰 수 있는가?
RQ4CNN이 학습한 지식이 퓨즈키, 조세키, 테수지, 코 전투, 영향력 등의 핵심 가급 개념을 암묵적으로 포괄하는가?

주요 결과

12층의 CNN은 검증 세트에서 55%의 수 예측 정확도를 달성하였으며, 동일한 데이터에서 6단 수준의 인간 전문가와 동일한 성능을 보였다.
검색 기법을 전혀 사용하지 않은 상태에서 CNN은 GnuGo와의 대국에서 97%의 승률을 기록하였다. GnuGo는 전통적인 검색 기반 프로그램이다.
Pachi(1회 수 예측당 10,000회 롤아웃)와 Fuego(1회 수 예측당 100,000회 롤아웃)와 같은 최신 MCTS 프로그램의 성능과도 맞먹는다.
비동기적 GPU 평가를 사용한 MCTS와 결합된 경우, 동일한 CNN이 검색 없이 사용할 때보다 100,000회 롤아웃을 사용해 87%의 승률을 기록하였다.
명시적인 모델링 없이도 네트워크는 퓨즈키, 조세키, 테수지, 코 전투, 영향력과 같은 복잡한 가급 개념을 암묵적으로 학습하였다.
대규모 단체의 생사 상태를 평가하는 데 약점을 보이며, MCTS가 전역적인 전망 능력에서 뛰어나다는 점을 시사하여 상호보완적임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.