QUICK REVIEW

[논문 리뷰] Simulating human grandmasters: evolution and coevolution of evaluation functions

Omid David-Tabibi, H.J. van den Herik|arXiv (Cornell University)|2009. 07. 08.

Artificial Intelligence in Games참고 문헌 32인용 수 6

한 줄 요약

이 논문은 인간 그랜드마스터의 게임 데이터에서 유전적 알고리즘을 사용해 그랜드마스터 수준의 체스 평가 함수를 진화시키는 새로운 접근법을 제시한다. 이는 인간 그랜드마스터 게임에서의 지도 학습과 비지도 공진화를 조합한 것이다. 결과적으로 얻어진 프로그램은 두 번의 세계 컴퓨터 체스 챔피언십 우승자를 능가하며, 인간의 게임 데이터베이스에서만 유래한 최첨단 평가 함수의 성공적인 진화를 이룩한 최초의 사례이다.

ABSTRACT

This paper demonstrates the use of genetic algorithms for evolving a grandmaster-level evaluation function for a chess program. This is achieved by combining supervised and unsupervised learning. In the supervised learning phase the organisms are evolved to mimic the behavior of human grandmasters, and in the unsupervised learning phase these evolved organisms are further improved upon by means of coevolution. While past attempts succeeded in creating a grandmasterlevel program by mimicking the behavior of existing computer chess programs, this paper presents the first successful attempt at evolving a state-of-the-art evaluation function by learning only from databases of games played by humans. Our results demonstrate that the evolved program outperforms a two-time World Computer Chess Champion.

연구 동기 및 목표

기존의 컴퓨터 체스 프로그램에 의존하지 않고 그랜드마스터 수준의 체스 평가 함수를 개발하는 것.
인간 그랜드마스터의 게임만으로도 고수준의 평가 함수를 진화시키는 데에 충분한 훈련 데이터가 될 수 있는지 탐구하는 것.
지도 학습(인간 플레이어를 모방함)과 비지도 공진화를 조합함으로써 평가 함수의 품질을 향상시키는 데의 효과를 조사하는 것.
진화 계산이 기존의 체스 엔진이나 평가 함수에 접근하지 않고도 경쟁력 있는 체스 엔진을 생성할 수 있음을 보여주는 것.

제안 방법

유전적 알고리즘을 사용해 인간 그랜드마스터 게임 데이터베이스를 기반으로 평가 함수의 파라미터를 최적화함으로써 평가 함수를 진화시킨다.
지도 학습 단계에서는 유기체(평가 함수)가 인간 그랜드마스터의 수수로 인해 결정된 수를 재현하도록 훈련시킨다.
비지도 공진화 단계에서는 진화된 함수들이 상호간의 자가 대국을 통해 성능을 개선하고 정교화한다.
평가 함수는 보드 특징들의 가중 조합으로 표현되며, 진화적 선택을 통해 최적화된다.
적합도는 진화된 함수의 수 선택이 훈련 데이터베이스 내 인간 그랜드마스터의 선택과 얼마나 유사한지에 따라 결정된다.
공진화 역학은 초보적 모방을 넘어서 전략적 깊이와 정확도를 향상시키는 데 기여하는 점진적 정교화를 가능하게 한다.

실험 결과

연구 질문

RQ1인간 그랜드마스터 게임 데이터베이스만을 사용해 그랜드마스터 수준의 체스 평가 함수를 진화시킬 수 있는가?
RQ2지도 학습과 공진화를 조합하면 지도 학습만으로 하는 것보다 더 높은 성능을 낼 수 있는가?
RQ3진화 계산을 통해 기존의 컴퓨터 체스 챔피언의 코드나 평가 함수를 사용하지 않고도 그들을 능가하는 체스 엔진을 생성할 수 있는가?
RQ4인간 그랜드마스터의 행동은 평가 파라미터의 진화적 최적화를 통해 어느 정도 정확하게 모델링될 수 있는가?

주요 결과

진화된 평가 함수는 그랜드마스터 수준의 성능을 달성하였으며, 인간의 게임 데이터만으로도 고수준의 체스 지능을 구현할 수 있음을 입증하였다.
공진화 단계는 초반 지도 학습 단계를 넘어서 성능을 크게 향상시켰으며, 이는 두 학습 철학이 상호 보완적인 효과를 가짐을 시사한다.
최종 프로그램은 두 번의 세계 컴퓨터 체스 챔피언을 능가하였으며, 그 경쟁력이 확인되었다.
기존의 컴퓨터 체스 엔진이나 그 평가 함수에 접근하거나 의존하지 않고도 기능적인 평가 함수를 성공적으로 생성하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.