QUICK REVIEW

[论文解读] Model-Based Reinforcement Learning via Meta-Policy Optimization

Ignasi Clavera, Jonas Rothfuss|arXiv (Cornell University)|Sep 14, 2018

Machine Learning and Data Classification被引用 117

一句话总结

MB-MPO 学习一个动态模型集合，并元学习一个策略，能够在一次梯度步中快速适应任意模型，在数据量极少的情况下实现接近无模型强化学习的渐近性能。

ABSTRACT

Model-based reinforcement learning approaches carry the promise of being data efficient. However, due to challenges in learning dynamics models that sufficiently match the real-world dynamics, they struggle to achieve the same asymptotic performance as model-free methods. We propose Model-Based Meta-Policy-Optimization (MB-MPO), an approach that foregoes the strong reliance on accurate learned dynamics models. Using an ensemble of learned dynamic models, MB-MPO meta-learns a policy that can quickly adapt to any model in the ensemble with one policy gradient step. This steers the meta-policy towards internalizing consistent dynamics predictions among the ensemble while shifting the burden of behaving optimally w.r.t. the model discrepancies towards the adaptation step. Our experiments show that MB-MPO is more robust to model imperfections than previous model-based approaches. Finally, we demonstrate that our approach is able to match the asymptotic performance of model-free methods while requiring significantly less experience.

研究动机与目标

为复杂控制任务激励数据高效的强化学习。
通过元学习能适应一组动力学模型分布的策略来解决模型偏差。
利用学习得到的动力学集成实现鲁棒的性能和快速适应。
证明元优化可以在显著更少的经验下达到与无模型方法相当的渐近性能。

提出的方法

学习一个预测状态变化 Δs 的神经网络动力学模型集合。
使用该集合构建一组 MDP 的分布，并应用基于梯度的元学习在这些模型上优化策略。
使用 MAML 目标来训练一个更新前的策略 θ，使其能够通过一次梯度步快速适应每个模型 k：θ′k = θ + α ∇θ Jk(θ)。
通过在第 k 个模型中使用更新前的策略仿真设想轨迹来估计 Jk(θ)。
使用策略梯度方法（TRPO）进行外层策略优化，将 θ 提升到面向所有模型的元目标。
收集真实环境数据来训练集合并定期用聚合数据更新模型。

实验结果

研究问题

RQ1MB-MPO 是否能够在需要显著更少真实世界数据的同时，达到与无模型方法可比的渐近性能？
RQ2在学习到的动力学模型集合上进行元学习，是否比传统的基于模型的方法提高对模型偏差的鲁棒性？
RQ3在每个模型内对策略的适应如何影响数据收集效率和学习速度？
RQ4MB-MPO 对有偏差或不完美的动力学模型以及长时程预测是否具有鲁棒性？

主要发现

MB-MPO 在六个 Mujoco 任务上使用少 10–100 倍数据实现了与最先进的无模型方法的渐近性能相匹配。
MB-MPO 在收敛速度和最终性能方面优于最近的基于模型的基线（ME-TRPO、MB-MPC），尤其是在需要长时程规划的任务上。
存在模型集合不确定性与策略可塑性之间的强正相关关系（更新前后策略的 KL 散度）。
MB-MPO 在有偏差/带噪声的动力学模型下仍然具有鲁棒性，在强模型不完善的情况下也能学习，而 ME-TRPO 难以实现。
将策略适应到每个集合模型再更新元策略，比从零开始学习或不进行适应时收敛更快、样本效率更高。
在较易域中，真实世界数据需要约 30 分钟达到高性能，而在较难域中则需要约 90 分钟。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。