Skip to main content
QUICK REVIEW

[论文解读] Recurrent World Models Facilitate Policy Evolution

David Ha, Jürgen Schmidhuber|arXiv (Cornell University)|Sep 4, 2018
International Development and Aid被引用 407
一句话总结

本文通过进化训练一个紧凑控制器(C),使其在由 VAE 基于的视觉编码器(V)和 MDN-RNN 动力学模型(M)组成的学习世界模型中行动;该世界模型使在 CarRacing-v0 的求解以及在生成的 VizDoom 环境中的学习成为可能,并可回传到真实环境中。

ABSTRACT

A generative recurrent neural network is quickly trained in an unsupervised manner to model popular reinforcement learning environments through compressed spatio-temporal representations. The world model's extracted features are fed into compact and simple policies trained by evolution, achieving state of the art results in various environments. We also train our agent entirely inside of an environment generated by its own internal world model, and transfer this policy back into the actual environment. Interactive version of paper at https://worldmodels.github.io

研究动机与目标

  • 展示对压缩视觉输入并预测未来的世界模型(V, M)进行无监督训练。
  • 证明一个简单的控制器(C)可以通过进化利用 V 与 M 的特征来最大化奖励。
  • 在 CarRacing-v0 与 VizDoom 上评估该方法以建立性能基准。
  • 探索在生成环境中训练策略并将其转移回真实环境。

提出的方法

  • 使用卷积 VAE(V)将每一帧编码为潜在表示 z。
  • 将下一个潜在表示 z_{t+1} 建模为分布 P(z_{t+1}|a_t,z_t,h_t) 的 MDN-RNN(M)。
  • 把控制器 C 视为一个小型线性模型,将 [z_t, h_t] 映射到动作 a_t,并用 CMA-ES 进行训练。
  • 调整 M 的温度参数 τ 以控制环境不确定性并防止利用性策略。
  • 分别训练 V 和 M(无监督),并进化 C 以最大化期望累计奖励。
  • 展示一个完全潜在空间的强化学习设置,其中 C 可以在生成环境中训练并转移回真实环境。

实验结果

研究问题

  • RQ1通过进化训练的紧凑控制器在由学习的预测世界模型引导时能否最大化奖励?
  • RQ2将 V(压缩)与 M(预测)以及简单的 C 相结合,是否能从像素中解决高维控制任务?
  • RQ3在世界模型生成的环境中训练的智能体能否将策略转移回实际环境?
  • RQ4在世界模型的不确定性 τ 变化时,对策略利用性和可转移性有何影响?

主要发现

MethodAverage Score
DQN343 ± 18
A3C (continuous)591 ± 45
A3C (discrete)652 ± 10
Gym Leader838 ± 11
V model632 ± 251
V model with hidden layer788 ± 141
Full World Model906 ± 21
  • 在 CarRacing-v0 上,包含 V、M 与 C 的完整世界模型实现了 906 ± 21,超过列出的先前深度强化学习方法。
  • 将 z_t 和 h_t 同时作为 C 的输入比仅使用 z_t 更稳定且更有能力(632 ± 251 提升到 906+)。
  • 在 VizDoom 中,在生成环境中训练后再转移到真实游戏获得 1092 时间步,明显高于 750 的目标值,虚拟环境的分数约为 918 ± 546。
  • V 与 M 直接从原始像素导航,无需手工特征,且使用一个小的线性控制器也能获得具有竞争力的结果。
  • 调整 MDN-RNN 的温度 τ 表明更高的不确定性降低了过度利用性并可改善向真实环境的转移(例如最佳转移在 τ≈1.15 附近 observed)。
  • 该方法通过基于世界模型的迭代训练与不确定性控制,展示了 sim-to-real 的一个实际路径。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。