Skip to main content
QUICK REVIEW

[论文解读] Neural Certificates for Safe Control Policies

Wanxin Jin, Zhaoran Wang|arXiv (Cornell University)|Jun 15, 2020
Fault Detection and Control Systems参考文献 18被引用 43
一句话总结

本论文提出联合学习一种带神经网络屏障和Lyapunov-like 证书的策略,以保证动态系统的安全性与到达目标,并在摆、推车-杆系统、车辆路径跟踪和无人机上做了演示。

ABSTRACT

This paper develops an approach to learn a policy of a dynamical system that is guaranteed to be both provably safe and goal-reaching. Here, the safety means that a policy must not drive the state of the system to any unsafe region, while the goal-reaching requires the trajectory of the controlled system asymptotically converges to a goal region (a generalization of stability). We obtain the safe and goal-reaching policy by jointly learning two additional certificate functions: a barrier function that guarantees the safety and a developed Lyapunov-like function to fulfill the goal-reaching requirement, both of which are represented by neural networks. We show the effectiveness of the method to learn both safe and goal-reaching policies on various systems, including pendulums, cart-poles, and UAVs.

研究动机与目标

  • 激励在动力系统策略学习中对安全性与目标到达的需求。
  • 准确定义安全性与目标到达,并将它们与稳定性及最优性区分开。
  • 开发神经网络证书(屏障与Lyapunov-like)以证明安全性和收敛性。
  • 联合学习策略和证书,并在多种非线性系统上进行验证。

提出的方法

  • 将屏障函数 B(x) 表示为输出可微的神经网络。
  • 将Lyapunov-like 函数 V(x) 表示为神经网络(通过二次型确保非负)。
  • 定义编码三条屏障条件和Lyapunov条件的屏障/ Lyapunov-like 证书损失。
  • 联合优化神经策略和证书网络,以最小化总证书损失。
  • 包含一个验证步骤,以对离散化的状态样本检验学习到的证书。
  • 将该方法应用于包括摆、车-杆、车辆路径跟踪和无人机在内的非线性系统。

实验结果

研究问题

  • RQ1在相对于不安全集合保持安全的前提下,策略能否实现对目标集合的到达?
  • RQ2能否与神经策略联合学习屏障和Lyapunov-like证书以保证安全性和收敛性?
  • RQ3如何验证学习到的证书以确保它们满足理论条件?
  • RQ4在实际中,该方法在多种非线性系统上的性能如何?

主要发现

  • 将屏障和Lyapunov-like证书与神经策略联合学习可产生安全且实现目标到达的行为。
  • 仅使用Lyapunov-like证书可实现目标到达,但可能违反安全性;屏障+Lyapunov-like证书可以确保安全。
  • 在摆、车-杆、车辆路径跟踪和无人机控制任务上演示,具备成功的安全性保证。
  • 学习过程伴随验证步骤,以在离散化的状态集合上验证证书属性。
  • 实证结果表明学习到的证书在所测试的情景中提供可证明的安全性和收敛性保证。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。