QUICK REVIEW

[论文解读] Giraffe: Using Deep Reinforcement Learning to Play Chess

Matthew Lai|arXiv (Cornell University)|Sep 4, 2015

Artificial Intelligence in Games参考文献 21被引用 68

一句话总结

Giraffe 是一款国际象棋引擎，通过深度强化学习自主学习评估函数和搜索策略，几乎无需手工编码的知识。通过训练一个深度神经网络来评估局面，另一个网络来估计走法的概率，它实现了国际大师水平（约 2400 FIDE 评级），采用端到端学习，搜索效率优于传统引擎，并提出了一种更根本的概率化方法用于极小化极大搜索。

ABSTRACT

This report presents Giraffe, a chess engine that uses self-play to discover all its domain-specific knowledge, with minimal hand-crafted knowledge given by the programmer. Unlike previous attempts using machine learning only to perform parameter-tuning on hand-crafted evaluation functions, Giraffe's learning system also performs automatic feature extraction and pattern recognition. The trained evaluation function performs comparably to the evaluation functions of state-of-the-art chess engines - all of which containing thousands of lines of carefully hand-crafted pattern recognizers, tuned over many years by both computer chess experts and human chess masters. Giraffe is the most successful attempt thus far at using end-to-end machine learning to play chess.

研究动机与目标

开发一款国际象棋引擎，通过自我对弈和深度强化学习学习所有领域特定知识，最大限度减少对手工设计评估函数的依赖。
探究概率限制搜索是否能在极小化极大树搜索中优于传统的深度限制搜索。
设计一个神经网络，预测每一步走法为最佳走法的可能性，从而实现更高效的搜索树构建。
评估端到端学习是否能在无需专家调校评估函数的情况下，生成具有竞争力的国际象棋引擎。
探索用概率基础剪枝替代深度基础剪枝的可行性，以实现更类人、更高效的搜索。

提出的方法

使用自我对弈和时序差分学习（TD-Leaf）训练深度神经网络来评估国际象棋局面，自动学习特征和模式。
采用概率限制搜索策略，在某一步走法为最佳走法的概率低于阈值时停止探索该分支，取代深度限制。
使用第二个神经网络在无前瞻的情况下估计每步走法为最佳走法的概率，用于对走法进行排序以优先搜索。
在基于概率的搜索框架中应用 alpha-beta 剪枝，利用边界值减少不必要的计算。
通过自我对弈生成训练数据，利用网络输出的位置评估结果启动学习过程。
使用自定义训练目标（TD-Leaf），结合时序差分学习与网络输出正则化，以提高评估的稳定性。

实验结果

研究问题

RQ1深度强化学习系统是否能在不依赖手工编码模式或启发式规则的情况下，学习到具有竞争力的国际象棋评估函数？
RQ2在搜索效率和棋力方面，概率限制搜索策略是否优于传统的深度限制搜索？
RQ3神经网络是否能准确预测无前瞻情况下的走法相对质量，且该预测是否能提升搜索性能？
RQ4端到端学习在多大程度上可以替代国际象棋引擎中数十年来专家调校的评估函数？
RQ5概率搜索能否泛化传统国际象棋引擎中已知的临时性优化方法，如零着法剪枝或无意义着法剪枝？

主要发现

尽管未显式引入模式识别规则，神经网络评估函数的表现与顶尖国际象棋引擎中的手工设计评估函数相当。
初步比较显示，概率限制搜索方法优于深度限制搜索，表明其在极小化极大搜索中具有更根本的合理性。
走法概率估计器在 70% 的情况下能将实际最佳走法排在前 3 名内，显著提升了搜索效率。
在走法评估器引导的概率搜索下，Giraffe 达到了相当于 FIDE 国际大师水平（约 2400 FIDE 评级）的棋力。
该系统表明，深度强化学习可在极少人工设计知识的前提下生成具有竞争力的国际象棋引擎，标志着游戏 AI 中端到端学习的重大进展。
证据表明，基于概率的搜索泛化了传统引擎中常见的临时性优化方法，如零着法剪枝，显示出更广泛的应用潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。