QUICK REVIEW

[论文解读] The Predictron: End-To-End Learning and Planning

David Silver, Hado van Hasselt|arXiv (Cornell University)|Dec 28, 2016

Reinforcement Learning in Robotics参考文献 23被引用 88

一句话总结

Predictron 是一种端到端可微分的深度学习架构，通过在想象的轨迹上展开抽象的马尔可夫奖励过程（MRP）来整合规划与学习，从而预测价值函数。它通过在多个规划深度上学习自洽的价值预测，在迷宫和池球模拟任务中优于传统的无模型深度网络，实现了更高的准确性和对网络架构选择的鲁棒性。

ABSTRACT

One of the key challenges of artificial intelligence is to learn models that are effective in the context of planning. In this document we introduce the predictron architecture. The predictron consists of a fully abstract model, represented by a Markov reward process, that can be rolled forward multiple "imagined" planning steps. Each forward pass of the predictron accumulates internal rewards and values over multiple planning depths. The predictron is trained end-to-end so as to make these accumulated values accurately approximate the true value function. We applied the predictron to procedurally generated random mazes and a simulator for the game of pool. The predictron yielded significantly more accurate predictions than conventional deep neural network architectures.

研究动机与目标

通过将学习与规划整合到单一端到端框架中，解决基于模型强化学习中单独训练的模型与规划器之间的脱节问题。
通过在多样化伪奖励函数和折扣因子上进行训练，开发一种可在多个预测任务间泛化的模型。
通过学习与真实环境结果保持一致的抽象、非像素级精确的内部表征，提升在非受控环境中的价值预测准确性。
通过可微分架构累积多个想象规划步骤中的奖励与价值，实现稳健的规划。
证明端到端训练的抽象模型在复杂控制任务中相比传统深度网络具有更优性能。

提出的方法

Predictron 使用带有循环 MRP 核心的深度神经网络，可在多个想象规划步骤上展开，累积奖励与价值估计。
它在单次前向传播中计算多个规划深度的价值预测，并将它们组合为集成输出。
模型通过一种鼓励不同规划深度上预测自洽性的损失函数进行端到端训练。
它支持向量值奖励和对角矩阵折扣，通过伪奖励函数泛化到多个预测任务。
该架构在规划步骤上使用可学习的类似注意力的加权（λ），动态组合预测结果，实现每条轨迹的自适应深度。
其内部模型完全抽象——其状态、动作、奖励和折扣空间无需对应真实环境，只要价值预测与真实回报保持一致即可。

实验结果

研究问题

RQ1端到端训练的抽象模型是否能在价值预测任务中超越传统深度网络？
RQ2通过单一可微分架构整合规划与学习，是否能提升预测准确性和鲁棒性？
RQ3在多样化伪奖励函数上训练的模型，是否能泛化到多个预测任务而不会过拟合于单一目标？
RQ4在多个规划深度上使用自洽价值预测如何影响性能？
RQ5即使抽象内部表征不可被人理解，是否仍能产生与真实环境结果一致的准确价值估计？

主要发现

在程序生成的迷宫中，Predictron 的价值预测准确度显著高于最先进无模型深度网络。
在模拟池球领域，Predictron 选择的初始条件在 50 场比赛中导致 27 次球入袋，而类似深度的卷积网络仅实现 10 次。
Predictron 对网络深度等架构选择表现出更强的鲁棒性，在各种变体中始终优于传统架构。
在规划深度上使用自洽价值预测提供了额外的学习信号，提升了整体准确性。
该模型通过规划抽象、非像素级精确的表征，实现了比基于像素级重建的模型更有效的价值估计。
Predictron 展示的轨迹 rollout 视频演示证实了其在复杂环境中更优越的决策能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。