Skip to main content
QUICK REVIEW

[论文解读] Regret-Guided Search Control for Efficient Learning in AlphaZero

Yun-Jui Tsai, Wei-Yu Chen|arXiv (Cornell University)|Feb 24, 2026
Reinforcement Learning in Robotics被引用 0
一句话总结

RGSC 通过引入后悔网络和带优先级的后悔缓冲区,在从高后悔状态重新启动自我对弈方面扩展了 AlphaZero,从而在围棋、奥赛棋与六边形棋上提升学习效率和性能。

ABSTRACT

Reinforcement learning (RL) agents achieve remarkable performance but remain far less learning-efficient than humans. While RL agents require extensive self-play games to extract useful signals, humans often need only a few games, improving rapidly by repeatedly revisiting states where mistakes occurred. This idea, known as search control, aims to restart from valuable states rather than always from the initial state. In AlphaZero, prior work Go-Exploit applies this idea by sampling past states from self-play or search trees, but it treats all states equally, regardless of their learning potential. We propose Regret-Guided Search Control (RGSC), which extends AlphaZero with a regret network that learns to identify high-regret states, where the agent's evaluation diverges most from the actual outcome. These states are collected from both self-play trajectories and MCTS nodes, stored in a prioritized regret buffer, and reused as new starting positions. Across 9x9 Go, 10x10 Othello, and 11x11 Hex, RGSC outperforms AlphaZero and Go-Exploit by an average of 77 and 89 Elo, respectively. When training on a well-trained 9x9 Go model, RGSC further improves the win rate against KataGo from 69.3% to 78.2%, while both baselines show no improvement. These results demonstrate that RGSC provides an effective mechanism for search control, improving both efficiency and robustness of AlphaZero training. Our code is available at https://rlg.iis.sinica.edu.tw/papers/rgsc.

研究动机与目标

  • 通过聚焦关键状态而非从初始状态重新开始,激励提升强化学习的学习效率。
  • 提出一种后悔引导机制,以识别 AlphaZero 的高后悔状态用于重启。
  • 开发基于排名的后悔网络和带优先级的后悔缓冲区以驱动搜索控制。
  • 在 9x9 的围棋、10x10 的奥赛棋和 11x11 的六角棋上验证 RGSC 的有效性。
  • 展示 RGSC 相对于强基线的改进以及从经过良好训练的模型继续训练时的提升。

提出的方法

  • 将状态的后悔定义为智能体评估与沿着轨迹的博弈结果之间的平均差异(方程 2)。
  • 引入一个后悔排名网络,输出未归一化分数 gamma_s 用于按后悔程度排序状态(方程 3-7)。
  • 使用优先级后悔缓冲区(PRB)存储高后悔状态,并通过对 PRB 状态进行基于 softmax 的采样来引导重启(式 3)。
  • 在排名网络的同时训练一个后悔值网络,在需要时提供对非轨迹状态的后悔估计。
  • 每次回放后通过指数加权平均来更新 PRB 中的后悔值,以跟踪学习进展(式 13)。
  • 在附录 B 提供 RGSC 的算法大纲。
(a) Human learning.
(a) Human learning.

实验结果

研究问题

  • RQ1RGSC 是否能够在多种棋类游戏中提升 AlphaZero 的样本效率和最终性能?
  • RQ2将高后悔状态优先用于重启是否比均匀抽样或从过去状态均匀抽样(Go-Exploit)提供更好的学习信号?
  • RQ3基于排名的后悔网络在识别信息性重启状态方面是否优于仅使用后悔值的方法?
  • RQ4在从一个训练良好的模型继续训练时,RGSC 是否仍然带来收益?

主要发现

GameAlphaZeroGo-ExploitRGSC
9x9 Go45.5% ± 1.5%49.5% ± 2.0%53.6% ± 2.4%
10x10 Othello51.7% ± 2.5%52.9% ± 3.3%57.8% ± 3.2%
11x11 Hex83.6% ± 1.6%89.2% ± 1.8%91.1% ± 2.0%
  • RGSC 在 9x9 围棋、10x10 奥赛棋和 11x11 六角棋上均优于 AlphaZero 和 Go-Exploit,平均 Elo 增益分别为 77 和 89(相对于 AlphaZero 和 Go-Exploit)。
  • 在从强大的 9x9 围棋模型出发时,RGSC 将对 KataGo 的胜率从 69.3% 提升至 78.2%,而基线模型没有改进。
  • 在三种游戏中,后悔排名网络比后悔值网络更有效地识别高后悔状态。
  • 进入 PRB 的状态在训练过程中后悔逐渐降低,表明错误得到自我纠正。
  • 在训练后期,RGSC 仍保持优势,而 Go-Exploit 在此阶段失效;从良好训练的模型继续训练时,RGSC 还能带来额外收益。
(b) RL Agent (AlphaZero) learning.
(b) RL Agent (AlphaZero) learning.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。