QUICK REVIEW

[논문 리뷰] Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

David Silver, Thomas Hubert|arXiv (Cornell University)|2017. 12. 05.

Artificial Intelligence in Games참고 문헌 23인용 수 1,079

한 줄 요약

AlphaZero 일반 강화 학습 알고리즘은 자가 대국을 통해 체스, 쇼기, 바둑을 제로 시작에서 학습하고, 단일 신경망과 몬테카를로 트리 탐색을 사용하여 수 시간 만에 초인적 성능에 도달한다. 각 도메인에서 세계 챔피언 프로그램들을 이긴다.

ABSTRACT

The game of chess is the most widely-studied domain in the history of artificial intelligence. The strongest programs are based on a combination of sophisticated search techniques, domain-specific adaptations, and handcrafted evaluation functions that have been refined by human experts over several decades. In contrast, the AlphaGo Zero program recently achieved superhuman performance in the game of Go, by tabula rasa reinforcement learning from games of self-play. In this paper, we generalise this approach into a single AlphaZero algorithm that can achieve, tabula rasa, superhuman performance in many challenging domains. Starting from random play, and given no domain knowledge except the game rules, AlphaZero achieved within 24 hours a superhuman level of play in the games of chess and shogi (Japanese chess) as well as Go, and convincingly defeated a world-champion program in each case.

연구 동기 및 목표

규칙 외의 도메인 지식 없이도 하나의 일반 목적 RL 알고리즘이 여러 복잡한 보드 게임에서 tabula rasa 상태의 초인적 성능을 달성할 수 있음을 입증한다.
신경망과 MCTS를 활용한 자가 대국이 체스와 쇼기뿐 아니라 바둑에서도 특수 엔진과 일치하거나 그 이상으로 성능을 낼 수 있음을 보이다.
전통적인 도메인 특화 방법과 비교한 학습 역학, 탐색 효율성, 확장성을 분석한다.
체스에서 학습된 전략이 인간과 유사한 초반(오프닝)을 포함하는지 여부와 이 방법이 게임 간 일반화되는지 밝힌다.

제안 방법

게임 규칙 외의 도메인 지식 없이 자가 대국으로부터 무작위 플레이를 학습하는 일반적인 AlphaZero 알고리즘을 사용한다.
각 게임에 맞게 조정된 신경망 입력/출력으로 보드 상태와 동작을 표현하고, 정책 및 가치 헤드 f_theta(s) -> (p,v)를 포함한다.
네트워크에 의해 가이드되는 MCTS를 사용하여 자가 대국으로 네트워크를 통해 네트워크를 학습시키고, 손실은 결과 및 탐색 확률과 일치시키기 위해 평균 제곱 오차와 교차 엔트로피를 결합한 형태이다.
최고-현재의 플레이어와의 반복이 아닌 하나의 지속적으로 업데이트되는 네트워크를 유지하고, 탐색을 위한 루트 사전값에 Dirichlet 노이즈를 적용한다.
Go, 체스, 쇼기 전반에 동일한 알고리즘 설정을 적용하되 게임 특화 입력/출력 표현과 매 수마다 800회의 MCTS 시뮬레이션을 사용한다.
체스의 Stockfish, 쇼기의 Elmo 등 강력한 도메인 특화 엔진 및 바둑의 AlphaGo Zero 프리데스essor들에 맞춰 성능을 평가한다.

실험 결과

연구 질문

RQ1일반 목적 강화 학습 알고리즘이 무작위 플레이에서 시작하는 체스와 쇼기에서 초인적 성능을 달성할 수 있는가?
RQ2신경망으로 가이드된 AlphaZero의 MCTS가 이들 도메인에서 전통적인 알파-베타 탐색 엔진과 어떻게 비교되는가?
RQ3학습된 정책이 체스에서 인간과 유사한 오프닝과 전략을 탐색하고, 이러한 일반 방법이 게임 간 일반화되는가?
RQ4다양한 게임에서 학습 곡선과 초인적 성능 달성까지의 시간이 어떻게 스케일링되는가?

주요 결과

AlphaZero는 체스에서 약 300k 스텝(4시간) 후에 자가 대국으로 무작위 플레이에서 Stockfish를 능가한다.
AlphaZero는 쇼기에서 약 110k 스텝(2시간 미만) 후에 Elmo를 능가한다.
AlphaZero는 바둑에서 약 165k 스텝(8시간) 후에 이전 3일짜리 AlphaGo Zero 버전을 이긴다.
100게임 토너먼트에서 AlphaZero는 Stockfish, Elmo, 그리고 3일간의 AlphaGo Zero를 이기고 Stockfish에게는 한 번도 지지 않으며 Elmo 또는 AG0 변형에 소수의 패배만을 기록한다.
AlphaZero의 MCTS는 생각 시간에 따라 베이스라인 알파-베타 엔진보다 더 효과적으로 스케일링되며, 이 도메인들에서 탐색 우수성에 대한 기존 가정을 뒤흔든다.
AlphaZero는 자가 대국 중에 일반적인 인간 오프닝을 학습하고 자주 사용하며, 이러한 오프닝에서 시작해 Stockfish를 이긴다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.