QUICK REVIEW

[论文解读] World Models

David Ha, Jürgen Schmidhuber|arXiv (Cornell University)|Mar 27, 2018

Reinforcement Learning in Robotics参考文献 40被引用 179

一句话总结

本文提出一个基于大型RNN的世界模型（VAE + MDN-RNN），它压缩观测并预测未来潜在状态，使一个小型控制器能够执行任务，包括在学习到的梦境中训练以及将策略迁移到真实环境。

ABSTRACT

We explore building generative neural network models of popular reinforcement learning environments. Our <em>world model</em> can be trained quickly in an unsupervised manner to learn a compressed spatial and temporal representation of the environment. By using features extracted from the world model as inputs to an agent, we can train a very compact and simple policy that can solve the required task. We can even train our agent entirely inside of its own hallucinated dream generated by its world model, and transfer this policy back into the actual environment. An interactive version of this article is available at worldmodels.github.io.

研究动机与目标

受到人类认知预测机制的启发，动机与构建一个预测性的世界模型。
演示一个大型的无监督世界模型如何压缩并预测来自原始观测的时空表示。
展示当通过世界模型的特征引导时，一个微小控制器也能解决任务。
探索在幻觉般的梦境环境中训练策略，并将其转移回真实环境。
讨论迭代训练和可能的基于好奇心的增强，以应对更复杂的环境。

提出的方法

使用变分自编码器（VAE）将每帧压缩成潜在向量 z。
使用带有 RNN 的混合密度网络（MDN）将分布 P(z_{t+1} | a_t, z_t, h_t) 建模为高斯混合分布。
实现一个最小线性控制器 C，将 [z_t, h_t] 映射到动作，从而保持 C 的轻量级以便用进化策略（CMA-ES）优化。
分别在从随机滚动数据收集得到的数据上训练 V 和 MDN-RNN，然后用 CMA-ES 优化 C。
可选地在由 M 生成的梦境般世界中运行控制器，或将梦境中学习到的策略转移到真实环境。
讨论迭代训练、好奇机制，以及对模型不完善的鲁棒性。

实验结果

研究问题

RQ1一个大型无监督世界模型是否能够从高维观测中学习紧凑的时空表示？
RQ2简单的控制器在多大程度上能够利用世界模型特征来解决控制任务？
RQ3是否有可能在学习到的梦境内训练策略并将它们转移到实际环境？
RQ4通过 MDN-RNN 引入不确定性如何影响策略学习和迁移？
RQ5当动力学模型不完善时，基于模型的策略的脆弱性是什么，以及如何缓解？

主要发现

模型	平均分
DQN (Prieur, 2017)	343 ± 18
A3C (continuous) (Jang et al., 2017)	591 ± 45
A3C (discrete) (Khan & Elibol, 2016)	652 ± 10
ceobillionaire (Gym Leaderboard)	838 ± 11
V model	632 ± 251
V model with hidden layer	788 ± 141
Full World Model	906 ± 21

V 模型 + MDN-RNN 使一个紧凑的控制器在 CarRacing-v0 上实现强性能，超过了若干先前的方法。
使用完整世界模型（V + M）比仅使用 V 或简单控制器得到更高的平均分。
在 CarRacing-v0 上，完整世界模型达到 906 ± 21，超过 DQN、A3C 变体以及先前的排行榜结果。
在梦境环境（VizDoom Take Cover）中训练出来的策略可以转移到真实的 VizDoom 环境，显著提高生存时间。
调整 MDN-RNN 的温度 τ 会调节梦境难度和可迁移性，在现实性与可利用性之间取得平衡。
论文讨论了世界模型可能被对抗性利用的潜在风险以及需要不确定性来缓解此类问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。