QUICK REVIEW

[论文解读] Data-Efficient Reinforcement Learning with Probabilistic Model Predictive Control

Sanket Kamthe, Marc Peter Deisenroth|arXiv (Cornell University)|Jun 20, 2017

Advanced Control Systems Optimization参考文献 35被引用 110

一句话总结

一个基于模型的 RL 框架，使用高斯过程和概率性 MPC，在状态与控制约束下实现数据高效学习，并通过 Pontryagin 最大原理提供理论保证。

ABSTRACT

Trial-and-error based reinforcement learning (RL) has seen rapid advancements in recent times, especially with the advent of deep neural networks. However, the majority of autonomous RL algorithms require a large number of interactions with the environment. A large number of interactions may be impractical in many real-world applications, such as robotics, and many practical systems have to obey limitations in the form of state space or control constraints. To reduce the number of system interactions while simultaneously handling constraints, we propose a model-based RL framework based on probabilistic Model Predictive Control (MPC). In particular, we propose to learn a probabilistic transition model using Gaussian Processes (GPs) to incorporate model uncertainty into long-term predictions, thereby, reducing the impact of model errors. We then use MPC to find a control sequence that minimises the expected long-term cost. We provide theoretical guarantees for first-order optimality in the GP-based transition models with deterministic approximate inference for long-term planning. We demonstrate that our approach does not only achieve state-of-the-art data efficiency, but also is a principled way for RL in constrained environments.

研究动机与目标

通过使用带有概率动力学的基于模型的方法来解决强化学习中的数据低效问题。
将模型不确定性纳入长期规划，以降低模型误差的影响。
通过模型预测控制使用短期视野进行规划，以控制计算负担并实现约束处理。
在基于 GP 的动力学和确定性推断下，提供一阶最优性的理论保证。
在保持数据效率的同时，演示对状态和控制约束的处理。

提出的方法

使用高斯过程学习一个概率转移模型，以捕捉动力学和不确定性。
通过矩匹配将基于 GP 的不确定性在时间上传播，以获得确定的长期预测。
将概率性 MPC 问题重新表述为确定性的最优控制问题，并应用 Pontryagin 最大原理进行有约束的规划。
在含 GP 动力学的 MPC 内使用离线优化，并通过哈密顿量推导高效梯度，以进行基于 SQP/BFGS 的优化。
通过基于 PMP 的最小条件引入状态和控制约束，而不依赖策略参数化。
在每次试验后在线更新 GP 模型，以在不重新规划整个时域的情况下改进规划。

实验结果

研究问题

RQ1带有 GP 动力学的概率性 MPC 是否在基准控制任务上比 PILCO 实现更快的数据高效学习？
RQ2该方法在保持数据效率和最优性的同时，能否处理状态和控制约束？
RQ3将 GP 不确定性纳入规划对学习过程中的安全性和约束满足有何影响？

主要发现

实验	PILCO	GP-MPC-Mean	GP-MPC-Var
Cart-pole	16/100	21/100	3/100
Double Pendulum	23/100	26/100	11/100

GP-MPC 在数据效率方面优于 PILCO，且在 Cart-pole 和 Double Pendulum 摆动上升任务中表现更好。
GP-MPC 在少量试验中就实现高成功率：Cart-pole 约六次试验后达到 90% 成功，Double Pendulum 约六次试验后达到，PILCO 需要更多试验。
在有约束的设置中，带不确定性的 GP-MPC（GP-MPC-Var）始终能解决任务，而仅均值的规划（GP-MPC-Mean）在某些情况下表现不佳，PILCO 常常违反约束。
带机会约束的 GP-MPC 相对于基于均值的规划显著降低了期望违规量，突显将不确定性建模用于安全性的重要性。
该方法在提供基于 PMP 的理论保证和基于矩匹配的 GP 动力学的同时，达到数据效率的前沿水平。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。