[논문 리뷰] Regret-Guided Search Control for Efficient Learning in AlphaZero
RGSC는 AlphaZero를 regret 네트워크와 우선순위 regret 버퍼로 확장하여 고-후회 상태에서 자가 학습을 재시작하고, 학습 효율성과 성능을 Go, Othello, Hex 전반에 걸쳐 개선한다.
Reinforcement learning (RL) agents achieve remarkable performance but remain far less learning-efficient than humans. While RL agents require extensive self-play games to extract useful signals, humans often need only a few games, improving rapidly by repeatedly revisiting states where mistakes occurred. This idea, known as search control, aims to restart from valuable states rather than always from the initial state. In AlphaZero, prior work Go-Exploit applies this idea by sampling past states from self-play or search trees, but it treats all states equally, regardless of their learning potential. We propose Regret-Guided Search Control (RGSC), which extends AlphaZero with a regret network that learns to identify high-regret states, where the agent's evaluation diverges most from the actual outcome. These states are collected from both self-play trajectories and MCTS nodes, stored in a prioritized regret buffer, and reused as new starting positions. Across 9x9 Go, 10x10 Othello, and 11x11 Hex, RGSC outperforms AlphaZero and Go-Exploit by an average of 77 and 89 Elo, respectively. When training on a well-trained 9x9 Go model, RGSC further improves the win rate against KataGo from 69.3% to 78.2%, while both baselines show no improvement. These results demonstrate that RGSC provides an effective mechanism for search control, improving both efficiency and robustness of AlphaZero training. Our code is available at https://rlg.iis.sinica.edu.tw/papers/rgsc.
연구 동기 및 목표
- RL 학습 효율성을 초기 상태에서 재시작하는 것이 아니라 중요한 상태에 집중함으로써 개선하려는 동기 부여.
- AlphaZero에서 재시작할 고-후회 상태를 식별하는 regret-guided 메커니즘을 제안한다.
- 검색 제어를 이끄는 랭킹 기반 regret 네트워크와 우선순위 regret 버퍼를 개발한다.
- RGSC의 유효성을 9x9 Go, 10x10 Othello, 11x11 Hex에서 보여준다.
- 잘 학습된 모델에서의 Continuing Training에서 RGSC의 개선 효과를 입증한다.
제안 방법
- 상태의 regret를 에이전트의 평가와 게임 결과 간의 궤적을 따라 평균적으로 차이난다고 정의한다(식(2)).
- regret를 랭크하기 위해 unnormalized 점수 gamma_s 를 출력하는 regret 랭킹 네트워크를 도입한다(식(3-7)).
- PRB(prioritized regret buffer)를 사용하여 고-후회 상태를 저장하고 PRB 상태에 대해 소프트맥스 기반 샘플링으로 재시작을 유도한다(식(3)).
- 필요할 때 regret 추정치를 제공하기 위해 랭킹 네트워크와 함께 regret 값 네트워크를 학습시킨다(비궤적 상태에 대해).
- 재생 후 지수적 이동 평균으로 PRB의 regret 값을 업데이트하여 학습 진행 상황을 추적한다(식(13)).
- 부록 B에서 RGSC의 알고리즘적 개요를 제공한다.

실험 결과
연구 질문
- RQ1 RGSC가 여러 보드 게임에서 AlphaZero의 샘플 효율성과 최종 성능을 개선할 수 있는가?
- RQ2 고-후회 상태를 우선시하는 것이 균일 샘플링이나 과거 상태에서의 균일 샘플링(Go-Exploit)보다 더 나은 학습 신호를 제공하는가?
- RQ3 랭킹 기반 regret 네트워크가 정보성 재시작 상태를 식별하는 데 regret 값만 사용하는 방식보다 더 우수한가?
- RQ4 잘 학습된 모델에서의 Continuing Training 시 RGSC가 이익을 제공하는가?
주요 결과
- RGSC는 9x9 Go, 10x10 Othello, 11x11 Hex에서 AlphaZero 및 Go-Exploit보다 평균 Elo 이득 77 및 89를 각각 달성하며 우수한 성능을 보인다.
- 강력한 9x9 Go 모델에서 시작할 때 RGSC는 KataGo에 대한 승률을 69.3%에서 78.2%로 증가시키고, 기저 방법들은 개선되지 않는다.
- 랭크 기반 regret 네트워크가 3개 게임 전반에 걸쳐 regret 값 네트워크보다 고-후회 상태를 더 효과적으로 식별한다.
- 학습이 진행되면 PRB에 들어간 상태의 regret가 감소하는 것을 보이며, 이는 실수의 자기 교정이 성공적으로 이루어졌음을 시사한다.
- Go-Exploit이 효율성을 잃는 후반 학습 단계에서도 RGSC는 우위를 유지하고, 잘 학습된 모델에서 Continuing Training 시 추가 이득을 얻는다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.