QUICK REVIEW

[论文解读] Neural Lyapunov Control

Ya-Chien Chang, Nima Roohi|arXiv (Cornell University)|May 1, 2020

Advanced Control Systems Optimization被引用 131

一句话总结

一个学习框架，联合调整神经控制器和神经李雅普诺夫函数，并使用一个伪证器来证明全局稳定性并扩大非线性系统的吸引域。它提供可证明的稳定性保证，并比传统方法拥有更大的吸引域（ROA）。

ABSTRACT

We propose new methods for learning control policies and neural network Lyapunov functions for nonlinear control problems, with provable guarantee of stability. The framework consists of a learner that attempts to find the control and Lyapunov functions, and a falsifier that finds counterexamples to quickly guide the learner towards solutions. The procedure terminates when no counterexample is found by the falsifier, in which case the controlled nonlinear system is provably stable. The approach significantly simplifies the process of Lyapunov control design, provides end-to-end correctness guarantee, and can obtain much larger regions of attraction than existing methods such as LQR and SOS/SDP. We show experiments on how the new methods obtain high-quality solutions for challenging control problems.

研究动机与目标

解决对非线性动力系统进行可证明保证的稳定性挑战。
在不进行局部线性化的情况下，联合学习控制策略和神经李雅普诺夫函数。
提供端到端的稳定性认证与可扩展的吸引域提升。
利用带有 delta-complete 约束求解的学习者–伪证器循环以确保严格性。
在若干机器人基准测试上展示更大的吸引域。

提出的方法

将李雅普诺夫函数表示为带有 tanh 激活的多层前馈神经网络，并与控制策略联合学习。
优化李雅普诺夫风险，惩罚李雅普诺夫条件的违反：max(0,-V_theta(x)) + max(0, L_f_u V_theta(x)) + V_theta(0)^2。
使用随机梯度下降最小化李雅普诺夫风险，并以 LQR 解初始化控制器。
使用伪证器通过对 delta-完备 SMT 求解器(dReal) 求解 Phi_epsilon(x) 来搜索违反李雅普诺夫条件的状态 x。
通过加入反例迭代地扩充训练，以引导学习收敛到区域内有效的李雅普诺夫函数。
通过向学习目标中添加调节项来调整 ROA，从而扩大吸引域。

实验结果

研究问题

RQ1神经网络是否能在超出局部线性化的非线性动力学中表达具有保证的李雅普诺夫函数？
RQ2联合学习的控制器和神经李雅普诺夫函数是否能够在较大吸引域内实现可证明的稳定性？
RQ3以伪证器引导的课程是否能够有效发现反例以改进稳定性证书的学习？
RQ4在多种非线性机器人系统中，学习得到的吸引域与 LQR 以及 SOS/SDP 基线相比如何？
RQ5该框架是否能够通过目标函数调优灵活在稳定性保证与区域大小之间进行权衡？

主要发现

该框架在多个非线性机器人问题中，给出比 LQR 和 SOS/SDP 基线更大吸引域的可证明稳定控制器。
在所提风险和伪证循环下学习的神经李雅普诺夫函数在稳定性被认证时收敛到零李雅普诺夫风险。
Delta-完备 SMT 求解(dReal)为李雅普诺夫条件提供严格的不可满足性保证，使得在距离原点很小的 epsilon-ball 之外实现完全认证成为可能。
通过修改学习目标以鼓励李雅普诺夫函数随半径更快增长，可以主动扩大 ROA，在实验中显示出更大的吸引域。
相比运行时统计显示，该方法在 inverted pendulum、Path Following、Caltech Ducted Fan、2-Link Balancing 等问题上实现了有意义的学习和伪证时间。
学习得到的控制器在减小振荡和改善稳定性方面，常常优于初始的 LQR 初始化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。