[论文解读] Safe Model-based Reinforcement Learning with Stability Guarantees
本文提出 SafeLyapunovLearning,一种基于模型的 RL 方法,利用李雅普诺夫稳定性、高斯过程动力学和 Lipschitz 假设在提供高概率安全保证的同时,安全扩展吸引区域并提升策略性能;在一个仿真的倒立摆上进行演示。
Reinforcement learning is a powerful paradigm for learning optimal policies from experimental data. However, to find optimal policies, most reinforcement learning algorithms explore all possible actions, which may be harmful for real-world systems. As a consequence, learning algorithms are rarely applied on safety-critical systems in the real world. In this paper, we present a learning algorithm that explicitly considers safety, defined in terms of stability guarantees. Specifically, we extend control-theoretic results on Lyapunov stability verification and show how to use statistical models of the dynamics to obtain high-performance control policies with provable stability certificates. Moreover, under additional regularity assumptions in terms of a Gaussian process prior, we prove that one can effectively and safely collect data in order to learn about the dynamics and thus both improve control performance and expand the safe region of the state space. In our experiments, we show how the resulting algorithm can safely optimize a neural network policy on a simulated inverted pendulum, without the pendulum ever falling down.
研究动机与目标
- 通过李雅普诺夫理论保证稳定性,推动针对安全关键系统的安全强化学习。
- 开发一个基于模型的 RL 框架,利用概率动力学来提供高概率的安全证书。
- 展示如何在保证安全的前提下收集数据,以扩大安全吸引域并提升控制性能。
- 提供一个实用算法并在仿真倒立摆上进行实验验证。
- 在吸引域内建立安全探索的理论保证。
提出的方法
- 将未知动力学表示为已知先验模型加上一个 Lipschitz 连续的误差项。
- 使用高斯过程模型来获得 f(x,u) 的后验均值和置信区间。
- 应用李雅普诺夫函数来定义吸引域,并以高概率强制执行一步下降条件。
- 对状态空间进行离散化,以在网格上验证李雅普诺夫下降,并通过 Lipschitz 连续性将结果推广到连续空间。
- 在不等式安全约束(来自定理 2)的约束下,优化策略以最大化估计的吸引域。
- 提出一种数据收集策略,在当前安全集合内通过优先考虑信息丰富、是安全的状态-行动对来进行安全探索(方程 6)。
- 提供一个实用算法(Algorithm 1 SafeLyapunovLearning),在安全测量下更新策略和 GP,同时保证吸引域内的安全性。
实验结果
研究问题
- RQ1基于模型的 RL 方法是否能提供以李雅普诺夫稳定性证书形式表现的高概率安全保证?
- RQ2在学习由高斯过程建模的未知动力学时,如何安全地扩展吸引域?
- RQ3在何种理论条件下,安全探索和数据收集在不离开安全集合的前提下扩展安全集合?
- RQ4如何将基于李雅普诺夫的安全性整合到连续状态-动作空间的实际策略优化中?
- RQ5该方法是否能扩展到非线性策略(如神经网络),并在如倒立摆等基准任务上安全地运行?
主要发现
- 该算法通过使用带有 GP 基动力学的李雅普诺夫下降条件,为稳定性提供高概率安全保证。
- 在 RKHS 有界模型误差和 Lipschitz 假设下,可以在当前吸引域内进行安全数据收集,安全探索扩展安全区域。
- 理论结果表明,离散化验证足以在数据增多时保证连续空间的李雅普诺夫下降,将离散化与精度联系起来。
- 该方法能够在仿真倒立摆上安全地优化神经网络策略,而不会使摆体跌落。
- 一种显式探索策略优先考虑最不确定的安全状态-行动对,以高效扩大吸引域。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。