QUICK REVIEW

[논문 리뷰] TDLeaf(lambda): Combining Temporal Difference Learning with Game-Tree Search

Jonathan Baxter, Andrew Tridgell|ArXiv.org|1999. 01. 05.

Artificial Intelligence in Games참고 문헌 11인용 수 25

한 줄 요약

TDLeaf(λ)는 체스와 같은 결정론적 깊이 탐색 게임에서 깊이 있는 미니맥스 게임 트리 탐색의 단말 노드 값에 기반해 평가 함수를 훈련시키는 새로운 시간 차분 학습 알고리즘으로, 인간 및 컴퓨터 상대와의 온라인 자가 대전을 통해 성능을 크게 향상시킨다. 실험 결과, FICS에서 인간과 컴퓨터 상대와의 308국 대전을 통해 체스 프로그램의 등급이 1650에서 2100으로 향상되었으며, 이는 단말 노드 훈련이 루트 노드나 자가 대전 방법에 비해 더 우수한 정책 학습을 가능하게 한다는 것을 보여준다.

ABSTRACT

In this paper we present TDLeaf(lambda), a variation on the TD(lambda) algorithm that enables it to be used in conjunction with minimax search. We present some experiments in both chess and backgammon which demonstrate its utility and provide comparisons with TD(lambda) and another less radical variant, TD-directed(lambda). In particular, our chess program, ``KnightCap,'' used TDLeaf(lambda) to learn its evaluation function while playing on the Free Internet Chess Server (FICS, fics.onenet.net). It improved from a 1650 rating to a 2100 rating in just 308 games. We discuss some of the reasons for this success and the relationship between our results and Tesauro's results in backgammon.

연구 동기 및 목표

체스와 같은 결정론적 깊이 탐색 게임에서 표준 TD(λ)가 루트 노드 상태로부터의 일반화 능력이 열 劣하기 때문에, 효과적인 평가 함수를 훈련시키는 데 도전하는 것.
깊이 있는 미니맥스 탐색에서 유도된 단말 노드 값들을 활용하여 평가 함수의 학습 효율성과 수렴 속도를 향상시키는 것.
체스와 브라운골에서 TDLeaf(λ)를 TD-directed(λ) 및 표준 TD(λ)와 비교하여 다양한 탐색 깊이와 훈련 제도에서 성능을 평가하는 것.
특히 최초 가중치가 열 劣한 상태에서 시작할 경우, 온라인 인간 참여 학습이 자가 대전보다 더 뛰어난 성능을 내는지 조사하는 것.
깊이 있는 전술적 평가가 요구되는 게임에서 단말 노드 훈련이 루트 노드 훈련보다 더 우수한 일반화 능력을 제공하는지 확인하는 것.

제안 방법

TDLeaf(λ)는 시간 차분 업데이트 규칙을 사용하지만, 루트 노드 값이 아닌 깊이 있는 미니맥스 탐색 트리에서 추출한 단말 노드 상태 값에 적용함으로써 TD(λ)를 확장한다.
알고리즘은 각 수수의 주요 변화 경로에서 유도된 단말 노드 값을 저장하여, 평가 함수를 정교화하기 위한 시간 차분 업데이트의 타겟으로 사용한다.
평가 함수를 표현하기 위해 매개변수화된 함수 근사기(예: 선형 또는 신경망)를 사용하며, 각 게임 수수 후에 단말 상태에 대해 TD(λ) 업데이트 규칙을 적용하여 가중치를 온라인으로 갱신한다.
이 방법은 실제 플레이 중에 온라인 학습을 지원하여, 다양한 상대와의 대전 중 실시간으로 평가 함수를 향상시킬 수 있다.
브라운골의 경우, 확률적 요소를 처리하기 위해 알고리즘을 수정하였으며, 두 수준 탐색을 사용하여 표준 TD(λ) 및 TD-directed(λ)와 성능을 비교하였다. 이때 가중치는 고정된 상태로 실험하였다.
실험은 자가 대전과 인간 상대 플레이를 모두 사용하였으며, 성능은 온라인 서버(FICS, FIBS)에서의 매치 결과 및 등급 변화로 측정되었다.

실험 결과

연구 질문

RQ1깊이 있는 미니맥스 탐색에서 유도된 단말 노드 값에 기반한 훈련이 루트 노드 값에 기반한 훈련보다 평가 함수 학습 속도와 효과성을 높이는가?
RQ2단기 전술적 평가가 필수적인 결정론적 게임인 체스에서 TDLeaf(λ)가 성능을 크게 향상시킬 수 있는가?
RQ3실제 인간 및 컴퓨터 상대와의 온라인 학습이 자가 대전에 비해 수렴 속도와 최종 성능 측면에서 더 뛰어나게 되는가?
RQ4단말 노드 훈련의 성능 향상은 탐색 깊이에 의존하는가? 그리고 체스와 브라운골 간의 다양한 게임에 대해 일반화되는가?
RQ5일단 탐색에서 최적의 평가 함수가 유지되는가, 아니면 더 깊은 탐색을 위해서는 다른 함수가 필요한가?

주요 결과

TDLeaf(λ)를 사용하는 체스 프로그램 KnightCap는 FICS에서 인간과 컴퓨터 상대와의 온라인 대전 308국 동안 1650에서 2100 등급으로 향상되었다.
자기 자신과의 자가 대전만으로는 효과적이지 않았다. 자가 대전 전용으로 훈련된 버전은 FICS 훈련 버전과의 매치에서 100국 중 11점 뿐을 얻어내어, 다양한 상대와의 온라인 플레이가 빠른 수렴을 위해 필수적임을 시사한다.
체스 성능 향상의 원인은 루트 노드 상태보다 단말 노드 상태의 분포가 실제 게임 결과를 더 잘 반영하기 때문이며, 깊이 탐색 후의 실제 결과를 더 잘 반영한다.
브라운골에서는 TDLeaf(λ)를 사용해도 표준 TD(λ)에 비해 유의미한 성능 향상이 관찰되지 않았다. 이는 일단 탐색에서 최적의 평가 함수가 이미 두 수준 탐색에 대해 근사적으로 최적일 수 있음을 시사한다.
TD-directed(λ)와 TDLeaf(λ)는 모두 브라운골에서 표준 TD(λ)를 능가하지 못했으며, 이는 표준 훈련 이후 솔루션 공간이 이미 근사적으로 최적에 도달했을 수 있음을 시사한다.
좋은 초기 가중치 근처에서 시작하는 것이 수렴 속도 향상에 매우 중요했다. 랜덤 초기화를 사용한 두 번째 실험에서는 600국 후에 280점의 향상만 기록했고, FICS 실험의 450점 향상보다 훨씬 느렸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.