Skip to main content
QUICK REVIEW

[论文解读] Bayesian Optimization in AlphaGo

Yutian Chen, Aja Huang|arXiv (Cornell University)|Dec 17, 2018
Embedded Systems Design Techniques参考文献 4被引用 78
一句话总结

本文档展示了贝叶斯优化如何在开发过程中自动调整 AlphaGo 的棋局超参数,带来显著的强度提升和跨多个开发任务的洞见。

ABSTRACT

During the development of AlphaGo, its many hyper-parameters were tuned with Bayesian optimization multiple times. This automatic tuning process resulted in substantial improvements in playing strength. For example, prior to the match with Lee Sedol, we tuned the latest AlphaGo agent and this improved its win-rate from 50% to 66.5% in self-play games. This tuned version was deployed in the final match. Of course, since we tuned AlphaGo many times during its development cycle, the compounded contribution was even higher than this percentage. It is our hope that this brief case study will be of interest to Go fans, and also provide Bayesian optimization practitioners with some insights and inspiration.

研究动机与目标

  • 展示贝叶斯优化在开发过程中如何用来调整 AlphaGo 的棋局超参数。
  • 量化自动调参对棋力的影响并提供参数贡献的洞见。
  • 描述优化方法学,包括模型、采集函数,以及在噪声大、评估成本高的情形下的实际考虑。
  • 展示基于任务的调参结果以及跨迭代与硬件变化的性能提升。

提出的方法

  • 对未知的胜率函数 p(theta) 使用高斯过程先验,并对输入进行扭曲。
  • 使用期望改进(Expected Improvement)采集函数进行优化,以在探索与开发之间取得平衡。
  • 使用伯努利自我对局结果建模观测噪声,采用非平稳高斯噪声模型,并通过50局评估估计它。
  • 处理不可微性和高评估成本,以证明贝叶斯优化相对于网格搜索的优势。
  • 实现一个修改版的 Spearmint 框架和一个顺序调参过程,该过程用新的自我对局结果更新 GP。
  • 提供可视化工具,以评估胜率对单个或两个超参数的敏感性,并识别影响因素。

实验结果

研究问题

  • RQ1贝叶斯优化是否能够可靠地识别在自我对局评估中提升 AlphaGo 胜率的超参数设定?
  • RQ2不同超参数组(例如 MCTS、roll-outs 与价值网络、时间控制等)对整体棋力的相对贡献是多少?
  • RQ3自动超参数设置在不同迭代和硬件(GPU 与 TPU)上的表现如何,相对于手工调参基线?
  • RQ4动态组件(如混合比和时间控制)能否通过贝叶斯优化有效发现并改进?

主要发现

  • 贝叶斯优化在李世石比赛前的最终调参中将 AlphaGo 的自我对局胜率从 50% 提升到 66.5%。
  • 在设计迭代中,MCTS 超参数将胜率分别提升了 63.2% 和 64.4%,对应 Elo 增益分别为 94 和 103 点。
  • 自动调参带来了超出单一参数调整的改进,并揭示了难以通过人工发现的参数之间的相关性。
  • 调参产生的洞见包括在后期设计中逐步偏好基于价值网络的估计而非回合展开,这影响了后续版本(如 Go Zero)。
  • 针对快速数据生成对手、短搜索时间的调参取得了可观的 Elo 增益(四个关键版本分别为 300、285、145、129)。
  • 由优化发现的动态混合比公式和时间控制策略显示出着法数的依赖关系(例如在第150步附近达到峰值),并带来显著的性能提升(如采用新时间控制时胜率达到 66.5%)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。