QUICK REVIEW

[논문 리뷰] The Lyapunov Neural Network: Adaptive Stability Certification for Safe Learning of Dynamical Systems

Spencer M. Richards, Felix Berkenkamp|arXiv (Cornell University)|2018. 08. 02.

Fault Detection and Control Systems인용 수 67

한 줄 요약

저자들은 비선형 폐루프 시스템의 가장 큰 안전 영역에 적응하는 신경망 기반 Lyapunov 함수를 제안하여 고정된 모델 구조에 의존하지 않고 학습 도중 안전성을 입증할 수 있게 한다.

ABSTRACT

Learning algorithms have shown considerable prowess in simulation by allowing robots to adapt to uncertain environments and improve their performance. However, such algorithms are rarely used in practice on safety-critical systems, since the learned policy typically does not yield any safety guarantees. That is, the required exploration may cause physical harm to the robot or its environment. In this paper, we present a method to learn accurate safety certificates for nonlinear, closed-loop dynamical systems. Specifically, we construct a neural network Lyapunov function and a training algorithm that adapts it to the shape of the largest safe region in the state space. The algorithm relies only on knowledge of inputs and outputs of the dynamics, rather than on any specific model structure. We demonstrate our method by learning the safe region of attraction for a simulated inverted pendulum. Furthermore, we discuss how our method can be used in safe learning algorithms together with statistical models of dynamical systems.

연구 동기 및 목표

학습 가능 로봇 공학에서 안전성의 동기를 제시하고 주어진 정책에 대해 가장 큰 안전 영역(ROA)을 식별한다.
본질적으로 안전 인증서를 제공하는 신경망 Lyapunov 후보를 개발한다.
특정 동역학 모델을 가정하지 않고 진짜 ROA와 일치하도록 레벨 세트를 형성하도록 Lyapunov 네트워크를 학습시킨다.
비선형 시스템(역진 pendulum)에서 접근 방식을 시연하고 안전 학습 프레임워크와의 통합을 논의한다.

제안 방법

Lyapunov 후보 v_theta(x) = phi_theta(x)^T phi_theta(x) 를 구성하되 phi_theta 는 구조적 보장을 가진 피드 포워드 신경망이다.
v_theta의 양의 정의성과 Lipschitz 연속성을 각 층의 무의미한 널공간이 있는 네트워크를 강제하고 무의미한 널공간이 있는 활성화 함수를 사용하여 확보한다.
안전 집합 추정을 분류 문제로 형식화하여 학습한다: x가 진짜 ROA S_pi 안에 있으면 y = +1, 그렇지 않으면 y = -1, 안전성은 v_theta(x) < c_S로 결정한다.
안전 영역 내 상태에 대해 Lyapunov 감소 조건 Delta v_theta(x) < 0 를 적용하고, 훈련 과정에서 위반(Delta v_theta)을 페널티하는 라그랑지안 형식을 사용한다.
알고리즘 1에 따라 알려진 안전 집합에서 확장하고, 앞으로의 시뮬레이션 간격을 확장하며, 인증된 ROA를 확장하기 위해 theta를 업데이트하여 안전한 레벨 세트이론을 반복적으로 확장한다.
제안된 접근법을 SOS Lyapunov 함수와 연계하고 이산 샘플링 및 Lipschitz 한계를 통한 안전성 검증을 논의한다.

실험 결과

연구 질문

RQ1비선형, 불확실한 폐루프 동역학에 대해 증명 가능한 Lyapunov 함수로 작동하도록 신경망을 어떻게 구성할 수 있는가?
RQ2고정된 다항식/SOS 구조에 의존하지 않고 학습된 Lyapunov 함수가 레벨 세트를 실제 도달 가능한 영역과 가까운 형태로 적응시킬 수 있는가?
RQ3분류 개념을 활용하여 가장 큰 안전 영역을 인증하는 Lyapunov 기반 안전 인증서를 학습시킬 수 있는가?
RQ4안전 인증서를 사용해 비선형 동적 시스템의 안전한 탐험과 학습을 가능하게 할 수 있는가?
RQ5제안 방법의 실행 가능성 및 성능은 비선형 벤치마크(역 pendulum)에서 어떻게 나타나며 기존 접근법과 비교하면 어떠한가?

주요 결과

본 방법은 양의 정의성과 Lipschitz 성질을 갖춘 신경 Lyapunov 후보를 도출하여 입증 가능한 안전 인증서를 가능하게 한다.
분류 형식을 통한 학습은 Lyapunov 레벨 세트를 진짜 ROA와 일치시키면서 감소 조건을 유지하도록 형성할 수 있다.
알고리즘 1은 안전 영역의 반복적 확장을 통해 레벨 세트를 확장하고 전방 시뮬레이션을 통해 안전성을 검증하는 과정을 보여 준다.
계산된 Lyapunov 함수로 진짜 ROA의 부분 집합 이상을 인증할 수 있으며, 안전하지 않은 상태가 안전한 것으로 잘못 분류되지 않음을 보장한다.
역 pendulum에의 적용은 비선형 시스템의 안전한 도달 영역을 학습할 수 있음을 보여주고 안전 학습 프레임워크와의 통합에 대해 논의한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.