QUICK REVIEW

[论文解读] Learning and Querying Fast Generative Models for Reinforcement Learning

Lars Buesing, Théophane Weber|arXiv (Cornell University)|Feb 8, 2018

Reinforcement Learning in Robotics参考文献 32被引用 70

一句话总结

本文提出快速的状态空间环境模型（确定性和随机性）从像素中学习，以实现高效的基于模型的强化学习，并证明使用这些模型的想象增强代理在 MS_PACMAN 上优于强大的模型无关基线，在学习查询模型时还可获得进一步提升。

ABSTRACT

A key challenge in model-based reinforcement learning (RL) is to synthesize computationally efficient and accurate environment models. We show that carefully designed generative models that learn and operate on compact state representations, so-called state-space models, substantially reduce the computational costs for predicting outcomes of sequences of actions. Extensive experiments establish that state-space models accurately capture the dynamics of Atari games from the Arcade Learning Environment from raw pixels. The computational speed-up of state-space models while maintaining high accuracy makes their application in RL feasible: We demonstrate that agents which query these models for decision making outperform strong model-free baselines on the game MSPACMAN, demonstrating the potential of using learned environment models for planning.

研究动机与目标

通过学习紧凑的状态表示来促进计算效率高的环境模型（状态空间模型）。
研究确定性和随机性状态空间模型及它们基于像素的学习能力。
通过在强化学习代理中对状态空间模型进行查询来展示规划与决策制定的收益。
展示不确定性建模和时序抽象（跳跃模型）如何影响 ALE 任务中的速度与准确性。

提出的方法

为环境建模定义并比较自回归、递归自回归，以及状态空间模型（确定性和随机性）。
使用基于像素的编码器和带有 pool-and-inject 层的卷积转换/解码模块以捕捉远程依赖。
使用最大似然或ELBO目标来训练模型；对随机模型（sSSMs）使用变分推断。
采用跳跃式训练以通过时序抽象近似更长的时间步，从而降低计算。
将状态空间模型集成到 Imagination-Augmented Agents (I2A) 中，以执行蒙特卡罗回滚并为策略/价值函数提供信息。
探索学习查询的方法，其中回滚策略通过蒸馏或通过模型的反向传播进行训练以改进规划。

实验结果

研究问题

RQ1可以从像素观测中学习的状态空间模型（确定性和随机性）提供准确且计算高效的环境预测吗？
RQ2状态空间模型是否能够实现有效的基于模型的强化学习，以及 Imagination-Augmented Agents 能否利用此类模型在具有挑战性的 ALE 任务上超越模型无关基线？
RQ3在回滚和规划中引入不确定性和时序抽象（跳跃模型）是否改善速度与准确性的权衡？
RQ4通过蒸馏或反向传播学习查询模型对基于模型的强化学习中的决策有益吗？

主要发现

状态空间模型（dSSM 和 sSSM）在保持具有竞争力的准确性的同时，显著提升了比像素空间自回归模型的速度。
具有不确定性的随机状态空间模型（sSSM）在多款 ALE 游戏中达到比确定性模型更高的对数似然值。
跳跃式（时序抽象的）SSM 提供了较大的速度提升（多达 >10x），且与非跳跃变体的准确性相当。
使用跳跃式 SSM 的 Imagination-Augmented Agents (I2A) 在 MS_PACMAN 上优于模型无关基线，且通过查询模型（蒸馏或反向传播）进行学习在 I2A 变体中表现最好。
在 I2A 设置中，当回滚次数较少（如 K=5）时，确定性 SSM 往往优于随机 SSM，因为信号更稳定，而 sSSMs 更好地单独捕捉环境的不确定性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。