QUICK REVIEW

[论文解读] Value Prediction Network

Junhyuk Oh, Satinder Singh|arXiv (Cornell University)|Jul 11, 2017

Reinforcement Learning in Robotics参考文献 38被引用 42

一句话总结

本文提出价值预测网络（VPN），一种深度强化学习架构，通过直接从抽象状态学习预测未来价值和奖励，绕过对观测值的预测，从而统一了无模型强化学习与基于模型的强化学习。VPN在9款Atari游戏中有7款表现优于DQN，在随机环境中展现出更优的鲁棒性，即使采用短时前瞻规划，也证明了其在学习更优状态表征和降低样本复杂度方面的有效性。

ABSTRACT

This paper proposes a novel deep reinforcement learning (RL) architecture, called Value Prediction Network (VPN), which integrates model-free and model-based RL methods into a single neural network. In contrast to typical model-based RL methods, VPN learns a dynamics model whose abstract states are trained to make option-conditional predictions of future values (discounted sum of rewards) rather than of future observations. Our experimental results show that VPN has several advantages over both model-free and model-based baselines in a stochastic environment where careful planning is required but building an accurate observation-prediction model is difficult. Furthermore, VPN outperforms Deep Q-Network (DQN) on several Atari games even with short-lookahead planning, demonstrating its potential as a new way of learning a good state representation.

研究动机与目标

解决在高维、随机环境中训练准确观测值预测模型的挑战，此类模型难以训练。
探究是否可以通过直接预测未来价值和奖励，而非预测未来观测值，实现规划。
开发一种统一的深度学习架构，通过端到端训练将基于模型的规划与无模型的价值学习相结合。
利用短时前瞻规划，在复杂视觉环境（如Atari游戏）中提升样本效率和策略性能。
探究辅助预测多步未来奖励和价值是否能增强状态表征学习。

提出的方法

VPN通过结合n步Q学习与时序差分搜索（TD搜索），使用单一神经网络预测选项条件下的未来价值和奖励。
网络在抽象状态空间中学习动态，预测未来价值而不生成未来观测值。
通过使用从学习到的价值预测模型进行模拟滚动的前瞻树搜索执行动作选择。
训练期间使用从未来状态预测的价值计算自举目标Q值。
通过反向传播进行训练，奖励部分采用监督学习，价值部分采用Q学习，实现动态与价值函数的联合优化。
在Atari游戏中采用10帧跳过以形成选项，网络可实时预测最多0.5秒的未来价值。

实验结果

研究问题

RQ1直接预测未来价值和奖励是否能提升深度强化学习中的样本效率和性能？
RQ2在未观测未来状态的情况下学习价值预测模型，是否能在随机环境中实现更好的泛化？
RQ3使用价值预测模型的短时前瞻规划是否能在复杂视觉环境（如Atari游戏）中超越标准DQN？
RQ4辅助预测多步未来奖励和价值在多大程度上能提升所学状态表征的质量？
RQ5训练期间的规划深度如何影响推理时短期与长期价值预测的质量？

主要发现

VPN在9款Atari游戏中的7款表现优于DQN，平均得分显著提升：例如Frostbite上为3811 vs. 3058，Seaquest上为5628 vs. 2951，Crazy Climber上为54119 vs. 41658。
在Seaquest、Q*Bert、Krull和Crazy Climber上，VPN的学习速度显著快于DQN，如图8所示的学习曲线更陡峭。
即使训练时规划深度为5，VPN也能泛化到长度大于5的规划，表明其在推理时可受益于更深的规划。
当训练使用较深规划（d_train > 1）而测试时采用短规划（d_test = 1）时，性能下降，表明长期与短期规划质量之间存在权衡。
如图9所示，该架构对不同动作序列能生成合理的价值估计，正确预测出导致敌方击杀的动作序列价值更高，导致死亡的动作序列价值更低。
该架构通过辅助预测未来奖励和价值，有助于提升状态表征学习，证据是尽管对DQN的架构改动极小，性能仍得到改善。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。