[论文解读] Learning Latent Dynamics for Planning from Pixels
PlaNet 是一个基于模型的智能体,从像素观测中学习环境潜在动力学,并在潜在空间中使用在线预测控制进行规划,在与基于模型的方法相比,显著减少环境交互次数的情况下仍表现出强大的性能。
Planning has been very successful for control tasks with known environment dynamics. To leverage planning in unknown environments, the agent needs to learn the dynamics from interactions with the world. However, learning dynamics models that are accurate enough for planning has been a long-standing challenge, especially in image-based domains. We propose the Deep Planning Network (PlaNet), a purely model-based agent that learns the environment dynamics from images and chooses actions through fast online planning in latent space. To achieve high performance, the dynamics model must accurately predict the rewards ahead for multiple time steps. We approach this using a latent dynamics model with both deterministic and stochastic transition components. Moreover, we propose a multi-step variational inference objective that we name latent overshooting. Using only pixel observations, our agent solves continuous control tasks with contact dynamics, partial observability, and sparse rewards, which exceed the difficulty of tasks that were previously solved by planning with learned models. PlaNet uses substantially fewer episodes and reaches final performance close to and sometimes higher than strong model-free algorithms.
研究动机与目标
- 通过从像素观测中学习动力学来激发在未知环境中的规划。
- 开发具有确定性与随机成分的潜在动力学模型,以实现对长期预测的鲁棒性。
- 引入潜在超越以提升潜在空间中多步预测的准确性。
- 展示在潜在空间中的规划以在基于图像的连续控制任务中取得良好表现。
- 展示相对于基于模型的无偏 baselines 的数据效率提升,同时保持竞争的计算时间。
提出的方法
- 使用一个结合确定性与随机潜在转移的递归状态空间模型(RSSM)以从像素中建模环境动力学。
- 训练一个编码器以从过去的观测和动作中推断潜在状态信念,从而在部分可观测Markov决策过程(POMDP)环境中实现滤波。
- 应用基于交叉熵法(CEM)的预测控制规划器,在潜在空间中搜索动作序列而无需渲染图像。
- 将变分界限扩展为包含潜在超越的形式,以鼓励潜在空间中的多步预测准确性(聚合距离1..D)。
- 通过使用当前模型进行规划并执行第一步动作来在线收集数据,然后在每一步重新规划(在线学习循环)。
- 在六个基于像素的DeepMind控制套件任务上评估 PlaNet,与基于模型的方法、无偏差基线及消融对比。
实验结果
研究问题
- RQ1在部分观测条件下,从像素观测中学习的潜在空间规划是否能够在连续控制任务上达到具有竞争力的性能?
- RQ2具有确定性和随机成分的潜在动力学模型是否比仅确定性或仅随机的模型在规划中提供更好的性能?
- RQ3潜在超越是否在规划下提升多步预测准确性与最终任务性能?
- RQ4与以像素为输入的前沿基于模型方法相比,PlaNet 的数据效率如何?
主要发现
- PlaNet 在六个基于图像的连续控制任务上实现了强劲的最终性能,有时甚至超过了强大的基于模型的方法。
- 使用 RSSM(确定性+随机转移)的 PlaNet 在所有任务中均优于纯确定性和纯随机变体。
- 潜在超越提升了长期预测和规划效果,尽管仅使用 RSSM 也在许多任务上带来显著收益。
- 在报告的对比中,PlaNet 达到接近甚至超过顶级无模型方法的最终性能,并且环境交互次数大约少200倍。
- 在潜在空间中的在线规划(CEM)提供稳健的规划性能,并从规划视野的迭代细化中获益。
- 从像素训练的潜在动力学 PlaNet 能解决部分可观测和稀疏奖励的任务,这些任务此前对基于规划的方法具有挑战性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。