QUICK REVIEW

[论文解读] Model-Based Reinforcement Learning for Atari

Łukasz Kaiser, Mohammad Babaeizadeh|arXiv (Cornell University)|Mar 1, 2019

Reinforcement Learning in Robotics参考文献 47被引用 420

一句话总结

SimPLe 使用学习到的随机视频预测世界模型在仿真 Atari 环境中训练策略，在 100K 次交互下实现强样本效率，并且常常优于无模型基线如 Rainbow 和 PPO。

ABSTRACT

Model-free reinforcement learning (RL) can be used to learn effective policies for complex tasks, such as Atari games, even from image observations. However, this typically requires very large amounts of interaction -- substantially more, in fact, than a human would need to learn the same games. How can people learn so quickly? Part of the answer may be that people can learn how the game works and predict which actions will lead to desirable outcomes. In this paper, we explore how video prediction models can similarly enable agents to solve Atari games with fewer interactions than model-free methods. We describe Simulated Policy Learning (SimPLe), a complete model-based deep RL algorithm based on video prediction models and present a comparison of several model architectures, including a novel architecture that yields the best results in our setting. Our experiments evaluate SimPLe on a range of Atari games in low data regime of 100k interactions between the agent and the environment, which corresponds to two hours of real-time play. In most games SimPLe outperforms state-of-the-art model-free algorithms, in some games by over an order of magnitude.

研究动机与目标

将从像素观测中降低 Atari 游戏的样本复杂度。
展示一个完整的基于模型的强化学习循环（学习世界模型，在模型中训练策略，使用真实数据迭代）。
在固定的 100K 交互预算下，与最先进的无模型基线进行比较。

提出的方法

引入 Simulated Policy Learning (SimPLe)，在收集真实数据、训练世界模型、在世界模型中通过 PPO 训练策略之间交替。
使用带离散潜变量的随机视频预测世界模型，基于动作预测下一个帧和奖励。
使用计划采样（scheduled sampling）以减轻累积误差，进行较短的滚动以限制在学习模型中的规划误差累积。
用真实数据的监督学习和预测建模的混合方式训练世界模型，使用裁剪损失以保持稳定性。
跨迭代聚合数据（数据集聚合），以扩展世界模型对环境动力学的覆盖。
使用 100K 实际环境交互、覆盖 26 个 Atari 游戏来评估性能，与 Rainbow 和 PPO 进行比较。

实验结果

研究问题

RQ1学习到的视频预测模型是否能在固定且较低的交互预算（100K）下实现 Atari 的有效策略学习？
RQ2具有随机离散潜变量动力学的基于模型的学习在样本效率上与先进的无模型基线（Rainbow、PPO）相比如何？
RQ3随机性、滚动长度和迭代数据收集对学习世界模型中的策略性能有何影响？
RQ4用 SimPLe 数据进行预训练或初始化是否对后续的无模型微调具有优势？

主要发现

SimPLe 在 100K 交互下几乎在所有测试游戏上都比高度调优的 Rainbow 基线具有更高的样本效率。
在最佳情况（Freeway）中，SimPLe 的样本效率是 Rainbow 的十倍以上。
在 26 个游戏中，SimPLe 在超过一半的游戏中优于无模型方法，某些结果超过了人类分数。
对于若干游戏，Rainbow/PM PPO 需要超过两倍以上的样本才能达到与 SimPLe 在 100K 时相同的分数。
该方法在许多设置中实现了与无模型方法相竞争的性能，并且在样本效率上接近或超越 PPO。
结果以每个游戏 5 次试验的平均值给出，各次试验之间的方差显著。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。