Skip to main content
QUICK REVIEW

[论文解读] Safe exploration of nonlinear dynamical systems: A predictive safety filter for reinforcement learning.

Kim P. Wabersich, Melanie N. Zeilinger|arXiv (Cornell University)|Dec 13, 2018
Advanced Control Systems Optimization参考文献 38被引用 40
一句话总结

本文提出了一种预测性安全过滤器,通过动态修改任何强化学习(RL)策略产生的不安全动作,实现了在具有连续状态和输入空间的非线性动力系统中的安全强化学习(RL)。该过滤器采用考虑不确定性的数据驱动模型预测控制公式,结合不确定性感知的安全约束,确保安全性,且无需对底层RL算法进行修改。

ABSTRACT

The transfer of reinforcement learning (RL) techniques into real-world applications is challenged by safety requirements in the presence of physical limitations. Most RL methods, in particular the most popular algorithms, do not support explicit consideration of state and input constraints. In this paper, we address this problem for nonlinear systems with continuous state and input spaces by introducing a predictive safety filter, which is able to turn a constrained dynamical system into an unconstrained safe system, to which any RL algorithm can be applied `out-of-the-box'. The predictive safety filter receives the proposed learning input and decides, based on the current system state, if it can be safely applied to the real system, or if it has to be modified otherwise. Safety is thereby established by a continuously updated safety policy, which is based on a model predictive control formulation using a data-driven system model and considering state and input dependent uncertainties.

研究动机与目标

  • 解决标准强化学习(RL)算法在应用于现实世界物理系统时缺乏显式安全约束的问题。
  • 在存在物理和操作约束的情况下,实现在具有连续状态和输入空间的非线性动力系统中的安全探索。
  • 开发一种通用的安全过滤器,可无需修改学习过程即“即插即用”地应用于任何RL算法。
  • 通过持续更新的、考虑状态和输入相关不确定性的安全策略,确保安全性。

提出的方法

  • 安全过滤器使用系统动力学的数据驱动模型,实时预测未来状态并评估动作的安全性。
  • 采用模型预测控制(MPC)公式计算满足状态和输入约束的安全控制输入。
  • 若RL策略提出的动作违反安全约束,过滤器将根据当前系统状态和不确定性边界,动态调整该动作。
  • 系统模型中的不确定性被显式建模,并在MPC优化过程中传播,以在模型不准确时仍保持安全性。
  • 通过在线学习或自适应估计,持续更新安全策略,以反映当前系统行为和不确定性。
  • 过滤器实时运行,使RL智能体能够在保持系统稳定性和约束合规性的前提下安全探索。

实验结果

研究问题

  • RQ1如何在物理约束下,将强化学习安全地应用于具有连续状态和输入空间的非线性动力系统?
  • RQ2能否设计一种通用的安全过滤器,使其可与任何RL算法配合使用,而无需修改其学习过程?
  • RQ3如何将模型不确定性及状态/输入相关扰动整合到安全过滤器中,以确保鲁棒性?
  • RQ4所提出的过滤器在约束违反和学习效率方面的性能与安全性权衡如何?

主要发现

  • 预测性安全过滤器通过动态修改RL策略产生的不安全动作,成功实现了在非线性系统中的安全探索。
  • 该方法无需修改底层RL算法即可确保安全性,支持“即插即用”集成。
  • 通过在MPC公式中引入状态和输入相关不确定性边界,即使在模型存在不确定性时也能维持安全性。
  • 该过滤器使原本可能导致约束违反或不安全行为的标准RL在系统中实现稳定且符合约束的学习。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。