QUICK REVIEW

[论文解读] Learning to Search with MCTSnets

Arthur Guez, Théophane Weber|arXiv (Cornell University)|Feb 13, 2018

Artificial Intelligence in Games参考文献 24被引用 28

一句话总结

该论文提出了 MCTSnets，一种可通过端到端训练学习执行蒙特卡洛树搜索（MCTS）的可微分神经网络架构，用可学习组件替代了手工设计的规则，用于模拟策略、价值评估和回溯操作。在推箱子（Sokoban）领域，MCTSnets 在显著更少的模拟次数下超越了标准 MCTS 基线模型，表明学习到的搜索策略可超越手工设计的策略。

ABSTRACT

Planning problems are among the most important and well-studied problems in artificial intelligence. They are most typically solved by tree search algorithms that simulate ahead into the future, evaluate future states, and back-up those evaluations to the root of a search tree. Among these algorithms, Monte-Carlo tree search (MCTS) is one of the most general, powerful and widely used. A typical implementation of MCTS uses cleverly designed rules, optimized to the particular characteristics of the domain. These rules control where the simulation traverses, what to evaluate in the states that are reached, and how to back-up those evaluations. In this paper we instead learn where, what and how to search. Our architecture, which we call an MCTSnet, incorporates simulation-based search inside a neural network, by expanding, evaluating and backing-up a vector embedding. The parameters of the network are trained end-to-end using gradient-based optimisation. When applied to small searches in the well known planning problem Sokoban, the learned search algorithm significantly outperformed MCTS baselines.

研究动机与目标

开发一种可学习的、端到端可微分的蒙特卡洛树搜索（MCTS）版本，用神经组件替代启发式规则。
实现在 MCTS 内部对模拟策略、价值评估和回溯机制的基于梯度的优化。
探究学习到的搜索策略是否能在样本效率和性能方面超越手工设计的 MCTS。
解决在可微分 MCTS 框架中学习内部控制流（如动作选择）时的信用分配问题。
在推箱子等小规模规划任务中，展示 MCTSnets 的有效性，此类任务中基于模型的规划具有挑战性。

提出的方法

MCTSnets 将搜索树中的每个节点表示为一个记忆向量，通过动态计算图进行前向模拟和反向回溯更新。
模拟策略通过一种调制策略架构学习，根据当前记忆向量选择动作，实现可微分的控制流。
通过神经网络对叶节点状态进行嵌入，以初始化记忆向量，并使用可学习的回溯网络将值向后传播。
采用带有折扣因子 γ 的近似信用分配方案，将梯度反向传播通过非可微的动作选择过程。
整个网络通过监督学习或强化学习进行端到端训练，以优化根节点预测损失。
参数共享使网络能够扩展到任意数量的模拟次数 M，从而实现高效的训练与推理。

实验结果

研究问题

RQ1神经网络能否通过学习模拟策略、价值函数和回溯规则，比手工设计的 MCTS 更有效地执行 MCTS？
RQ2所提出的近似信用分配方案在学习非可微模拟策略方面的有效性如何？
RQ3MCTSnets 中学习到的搜索策略是否能在模拟次数相当或更少的情况下超越标准 MCTS？
RQ4MCTSnets 是否能泛化到复杂规划任务（如 Sokoban），在这些任务中传统 MCTS 表现不佳？
RQ5信用分配方案中的折扣因子 γ 对学习性能有何影响？

主要发现

使用学习到的模拟策略的 MCTSnets 在仅 25 次模拟的情况下，已优于采用均匀随机模拟策略的标准 MCTS。
在信用分配方案中使用 γ < 1 的设置，性能优于 γ = 1，尤其在训练初期表现更优。
性能最佳的 MCTSnet 架构显著优于标准 MCTS 基线模型，在模拟次数少一个数量级的情况下取得了更优结果。
蒸馏后的模拟策略（使用带有熵正则化的先验）表现良好，但未达到完全训练后的学习策略的性能。
随着模拟次数 M 的增加，MCTSnets 在性能上表现出有效扩展，由于参数共享和信息提取能力的提升，训练步数更少即可获得更好结果。
结果表明，即使在小规模规划问题（如 Sokoban）中，学习到的搜索算法也能超越手工设计的 MCTS，显示出在复杂领域中替代传统 MCTS 的潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。