[论文解读] Dream to Control: Learning Behaviors by Latent Imagination
Dreamer 通过在学习世界模型中的潜在想象,从图像中学习长时域行为,在想象轨迹中对解析梯度进行反向传播,以优化策略和价值,从而在20个任务上实现数据高效的视觉控制。
Learned world models summarize an agent's experience to facilitate learning complex behaviors. While learning world models from high-dimensional sensory inputs is becoming feasible through deep learning, there are many potential ways for deriving behaviors from them. We present Dreamer, a reinforcement learning agent that solves long-horizon tasks from images purely by latent imagination. We efficiently learn behaviors by propagating analytic gradients of learned state values back through trajectories imagined in the compact state space of a learned world model. On 20 challenging visual control tasks, Dreamer exceeds existing approaches in data-efficiency, computation time, and final performance.
研究动机与目标
- 在每一步都不进行在线规划的前提下,激发并实现从高维视觉观测中进行长时域控制。
- 开发一个基于世界模型的智能体,在潜在空间中同时学习行动和状态价值,以克服时域的局限。
- 利用潜在动力学中的解析梯度,通过想象轨迹来训练策略。
- 在具有挑战性的视觉控制任务上展示数据效率和性能提升。
- 将表征学习目标和对比基线方法的时域鲁棒性进行比较。
提出的方法
- 从过去的经验中学习潜在动力学模型,在紧凑的状态空间中预测未来奖励。
- 在潜在空间中训练动作模型(策略)和价值模型,以最大化想象的多步回报。
- 通过潜在动力学反向传播解析梯度,以更新策略和价值预测。
- 在想象中使用重参数化动作采样器和Bellman一致的价值目标(V_lambda)。
- 从真实潜在状态出发预测想象轨迹并在其上进行优化,以提升现实世界的策略。
- 在 DeepMind Control Suite 上使用图像输入对 Dreamer 进行评估,并与基于模型的基线和无模型的基线进行比较。
实验结果
研究问题
- RQ1是否可以通过潜在想象在像素中学习长时域控制,而不需要在每一步进行在线规划?
- RQ2在潜在空间中同时预测行动和状态值是否能,使策略具备超越固定想象视界的鲁棒性与远见?
- RQ3哪种表征学习目标(重构、奖励预测或对比)最能支持 Dreamer 的性能?
- RQ4在数据效率和最终性能方面,Dreamer 与在线规划和无模型基线在视觉任务上的对比如何?
- RQ5Dreamer 是否适用于离散动作和包含提前终止的环境?
主要发现
- Dreamer 在20个视觉控制任务上,数据效率、计算时间效率和最终性能均优于先前的基于模型和无模型的智能体。
- 在5e6个环境步骤后,Dreamer 在各任务上的平均为823,超越 PlaNet,且在给定更多步骤的情况下接近或超过顶级的无模型 D4PG 性能。
- 在想象中学习价值模型使 Dreamer 对想象视界具有鲁棒性,并改善长时域信贷分配。
- 以像素重构作为表征学习目标在所评估的选项中对大多数任务实现了最佳性能。
- Dreamer 解决了长时域任务(例如 acrobot、hopper),这是对时域受限的想象或仅奖励方法困难的任务。
- Dreamer 适用于连续和离散动作,并且在评估中能够应对提前终止。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。