[論文レビュー] Regret-Guided Search Control for Efficient Learning in AlphaZero
RGSC は AlphaZero に後悔ネットワークと優先後悔バッファを追加し、高後悔状態から自己対戦を再開することで学習効率と性能をGo・Othello・Hex全般で向上させる。
Reinforcement learning (RL) agents achieve remarkable performance but remain far less learning-efficient than humans. While RL agents require extensive self-play games to extract useful signals, humans often need only a few games, improving rapidly by repeatedly revisiting states where mistakes occurred. This idea, known as search control, aims to restart from valuable states rather than always from the initial state. In AlphaZero, prior work Go-Exploit applies this idea by sampling past states from self-play or search trees, but it treats all states equally, regardless of their learning potential. We propose Regret-Guided Search Control (RGSC), which extends AlphaZero with a regret network that learns to identify high-regret states, where the agent's evaluation diverges most from the actual outcome. These states are collected from both self-play trajectories and MCTS nodes, stored in a prioritized regret buffer, and reused as new starting positions. Across 9x9 Go, 10x10 Othello, and 11x11 Hex, RGSC outperforms AlphaZero and Go-Exploit by an average of 77 and 89 Elo, respectively. When training on a well-trained 9x9 Go model, RGSC further improves the win rate against KataGo from 69.3% to 78.2%, while both baselines show no improvement. These results demonstrate that RGSC provides an effective mechanism for search control, improving both efficiency and robustness of AlphaZero training. Our code is available at https://rlg.iis.sinica.edu.tw/papers/rgsc.
研究の動機と目的
- Critical な状態に焦点を当てて RL 学習効率を改善する動機付け。
- AlphaZero における再開のための高後悔状態を識別する後悔ガイド機構を提案する。
- 探索制御を推進するランキングベースの後悔ネットワークと優先後悔バッファを開発する。
- 9x9 Go・10x10 Othello・11x11 Hex におけるRGSCの有効性を示す。
- 強力なベースラインとよく訓練されたモデルからの継続学習における RGSC の改善を示す。
提案手法
- 状態の後悔をエージェントの評価とゲーム結果との軌道に沿った平均的なずれ(式(2))として定義する。
- 後悔をランク付けする正規化されていないスコア gamma_s を出力する後悔ランキングネットワークを導入する(式(3)–(7))。
- 優先後悔バッファ(PRB)を用いて高後悔状態を格納し、PRB 状態上のソフトマックスベースのサンプリングで再開を誘導する(式(3))。
- 必要に応じて後悔推定を提供するためにランキングネットワークと並行して後悔値ネットワークを訓練する(非軌道状態に対して)。
- 学習進捗を追跡するために再生ごとに指数移動平均で PRB の後悔値を更新する(式(13))。
- RGSC の詳細なアルゴリズム概要を付録Bに提供する。

実験結果
リサーチクエスチョン
- RQ1RGSC は複数のボードゲームで AlphaZero のサンプル効率と最終性能を改善できるか?
- RQ2高後悔状態を優先することは均等再開や過去状態からの均等サンプリング(Go-Exploit)より良い学習信号を生むか?
- RQ3ランキングベースの後悔ネットワークは情報量の多い再開状態を特定する上で後悔値のみのアプローチより優れているか?
- RQ4よく訓練されたモデルからの継続学習時に RGSC は効果を発揮するか?
主な発見
| Game | AlphaZero | Go-Exploit | RGSC |
|---|---|---|---|
| 9x9 Go | 45.5% ± 1.5% | 49.5% ± 2.0% | 53.6% ± 2.4% |
| 10x10 Othello | 51.7% ± 2.5% | 52.9% ± 3.3% | 57.8% ± 3.2% |
| 11x11 Hex | 83.6% ± 1.6% | 89.2% ± 1.8% | 91.1% ± 2.0% |
- RGSC は 9x9 Go・10x10 Othello・11x11 Hex で AlphaZero および Go-Exploit を上回り、AlphaZero および Go-Exploit に対してそれぞれ平均 Elo 増分 77、89 を達成した。
- 強力な 9x9 Go モデルからの開始時に RGSC は KataGo に対する勝率を 69.3% から 78.2% に増加させるのに対し、ベースラインは改善しない。
- 後悔ランキングネットワークは 3ゲームすべてで後悔値ネットワークより高後悔状態をより効果的に特定した。
- PRB に入る状態は学習を通じて後悔が減少しており、誤りの自己訂正が達成されていることを示す。
- RGSC は Go-Exploit が効果を失う後半の学習段階でも優位性を維持し、よく訓練されたモデルからの継続学習時にはさらなる利得を生み出す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。