[论文解读] Learning-based Model Predictive Control for Safe Exploration and Reinforcement Learning
一种基于学习的 MPC 方法,为具有输入相关不确定性的非线性系统提供高概率的安全保障,能够实现安全探索并与强化学习集成。
Reinforcement learning has been successfully used to solve difficult tasks in complex unknown environments. However, these methods typically do not provide any safety guarantees during the learning process. This is particularly problematic, since reinforcement learning agent actively explore their environment. This prevents their use in safety-critical, real-world applications. In this paper, we present a learning-based model predictive control scheme that provides high-probability safety guarantees throughout the learning process. Based on a reliable statistical model, we construct provably accurate confidence intervals on predicted trajectories. Unlike previous approaches, we allow for input-dependent uncertainties. Based on these reliable predictions, we guarantee that trajectories satisfy safety constraints. Moreover, we use a terminal set constraint to recursively guarantee the existence of safe control actions at every iteration. We evaluate the resulting algorithm to safely explore the dynamics of an inverted pendulum and to solve a reinforcement learning task on a cart-pole system with safety constraints.
研究动机与目标
- 在未知环境中激发安全学习,其中探索必须遵守安全约束。
- 学习系统动力学的统计模型,以带有置信区间的方式捕捉未知误差。
- 开发能够处理输入相关不确定性的多步前瞻预测。
- 通过安全集和终端约束在每次迭代中保证可行性与安全性。
- 通过将规划与学习相结合,实现在 RL 中的安全探索和以任务为驱动的数据收集。
提出的方法
- 将未知动力学建模为 x_{t+1} = h(x_t,u_t) + g(x_t,u_t),其中已知先验 h 和未知的、Lipschitz 的 g。
- 使用高斯过程来建模 g,推导点估计 μ_n 和不确定性 σ_n,并给出高概率置信界。
- 利用 RKHS 属性和 GP 理论,构建能容纳输入相关不确定性的可靠置信区间(β·σ)。
- 开发用于多步状态预测的椭球形上界近似,以在时间上传播不确定性。
- 构建鲁棒的 MPC,确保安全约束和一个安全的终端集合,保证可行的安全行动。
- 通过将安全为导向的轨迹与以性能为导向的规划相结合,推动 RL 的安全探索。
实验结果
研究问题
- RQ1在存在输入相关不确定性的情况下,如何在基于学习的控制中以高概率保证安全?
- RQ2我们能否通过预测传递多步不确定性以规划安全轨迹并保持可行性?
- RQ3如何将安全探索与强化学习集成以在不违反约束的前提下提升任务性能?
- RQ4确保安全的终端集合在学习动力学下确保递归可行性中的作用是什么?
主要发现
- 提出的 MPC 方案在整个学习过程中提供高概率的安全保证。
- 开发了两种不确定性传播技术,以处理多步预测中的输入相关不确定性。
- 基于 GP/RKHS 假设推导了模型误差 g 的置信区间,从而实现可靠的安全界限。
- 该方法通过规划安全轨迹和任务相关的性能轨迹,支持安全探索和安全的基于模型的 RL。
- 实验在倒立摆上展示了安全探索,在带有安全约束的车-摆系统上展示了安全 RL。
- 该方法将安全备份控制器与基于学习的规划相结合,确保约束满足并向目标前进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。