QUICK REVIEW

[论文解读] Efficient Model-Based Deep Reinforcement Learning with Variational State Tabulation

Dane Corneil, Wulfram Gerstner|arXiv (Cornell University)|Feb 12, 2018

Reinforcement Learning in Robotics参考文献 5被引用 27

一句话总结

本文提出变分状态查表法（VaST），一种通过可微分随机采样变分自编码器将高维视觉观测映射到离散、表格化状态表示的方法。通过在此表格化空间中实现小规模备份的优先级传播，VaST 实现了样本高效的基于模型的深度强化学习，能快速适应环境变化，并在 3D 导航和 Atari Pong 中实现潜在空间学习。

ABSTRACT

Modern reinforcement learning algorithms reach super-human performance on many board and video games, but they are sample inefficient, i.e. they typically require significantly more playing experience than humans to reach an equal performance level. To improve sample efficiency, an agent may build a model of the environment and use planning methods to update its policy. In this article we introduce Variational State Tabulation (VaST), which maps an environment with a high-dimensional state space (e.g. the space of visual inputs) to an abstract tabular model. Prioritized sweeping with small backups, a highly efficient planning method, can then be used to update state-action values. We show how VaST can rapidly learn to maximize reward in tasks like 3D navigation and efficiently adapt to sudden changes in rewards or transition probabilities.

研究动机与目标

通过在表格化表示中实现高效规划，解决深度强化学习在高维状态空间中的样本低效问题。
克服先前基于模型的强化学习方法在连续或高维观测中无法在相似状态间泛化的问题。
通过从原始观测中学习紧凑且可泛化的状态表示，实现在环境变化后快速策略适应。
通过可微分的无监督状态离散化，整合基于模型规划（如优先级传播）的优势与深度学习的泛化能力。
证明仅依赖奖励无关的神经网络即可学习到有用的状态抽象，支持高效的值函数更新与迁移学习。

提出的方法

使用带有连续松弛（concrete relaxation）的变分自编码器（VAE），学习从高维观测（如图像）到离散潜在状态的可微分、随机映射。
将状态聚合器训练为人工神经网络-隐马尔可夫模型（ANN-HMM）的混合结构，其中潜在状态代表环境的表格化抽象。
在表格化状态空间中应用优先级传播并结合小规模备份，以高效更新 Q 值，利用不同轨迹间共享的状态。
通过在查找表中存储的回报使用 k-最近邻方法估计新状态的 Q 值，实现从相似过往经验中的泛化。
将状态表示学习与奖励预测解耦，使模型在训练期间完全无监督，且对奖励塑造不敏感。
通过维护一个持久的、与环境结构感知的状态表，实现迁移学习与潜在学习，该表捕捉了空间与时间关系。

实验结果

研究问题

RQ1深度神经网络能否从高维视觉输入中学习到离散且可泛化的状态表示，以支持高效的基于模型规划？
RQ2在学习到的表格化状态空间中使用优先级传播，是否相比标准深度 Q 网络或无模型的事件记忆控制方法，能显著提升样本效率？
RQ3通过利用预先学习的状态抽象，智能体能否在奖励或动力学发生突变后迅速适应其策略？
RQ4与传统表格化强化学习相比，该方法在多大程度上支持潜在学习——即在无即时奖励的情况下学习环境结构？
RQ5VaST 在复杂 3D 导航与 Atari 环境中的性能，与无模型和基于模型的基线方法相比如何？

主要发现

在 3D 导航任务中，VaST 在早期学习阶段优于无模型事件记忆控制（MFEC）和深度 Q 网络（DQN），实现了更快的收敛速度与更高的样本效率。
智能体学习到了紧凑且可泛化的状态表示，使得优先级传播能够将值更新传播到不同轨迹中共享的状态，即使奖励延迟到达也有效。
在 3D 导航中，VaST 展现出在环境变化（如新增路径或路径被阻断）后快速策略适应能力，通过复用先前学习到的状态-动作值实现。
该方法在 Atari 游戏 Pong 中表现强劲，表明其泛化能力不仅限于导航任务，但在其他 Atari 游戏中性能不够稳定。
VaST 实现了潜在学习：即使在无奖励情况下，智能体也能构建环境的结构模型（如迷宫拓扑），与托尔曼的经典实验结果一致。
状态编码器的无奖励训练方式支持稳定、无监督的预训练，从而提升了下游策略学习的性能，并增强了任务间的迁移能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。