QUICK REVIEW

[논문 리뷰] Neural Certificates for Safe Control Policies

Wanxin Jin, Zhaoran Wang|arXiv (Cornell University)|2020. 06. 15.

Fault Detection and Control Systems참고 문헌 18인용 수 43

한 줄 요약

본 논문은 동적 시스템의 안전성과 목표 달성을 보장하기 위해 신경망 차단기(neural barrier)와 Lyapunov-like 인증서를 함께 학습하는 정책을 제안하며, 이를 pendulums, cart-poles, 차량 경로 추적 및 UAV에서 시연한다.

ABSTRACT

This paper develops an approach to learn a policy of a dynamical system that is guaranteed to be both provably safe and goal-reaching. Here, the safety means that a policy must not drive the state of the system to any unsafe region, while the goal-reaching requires the trajectory of the controlled system asymptotically converges to a goal region (a generalization of stability). We obtain the safe and goal-reaching policy by jointly learning two additional certificate functions: a barrier function that guarantees the safety and a developed Lyapunov-like function to fulfill the goal-reaching requirement, both of which are represented by neural networks. We show the effectiveness of the method to learn both safe and goal-reaching policies on various systems, including pendulums, cart-poles, and UAVs.

연구 동기 및 목표

동적 시스템의 정책 학습에서 안전성과 목표 달성의 필요성을 동기화한다.
안전성과 목표 달성을 명확히 정의하고 이를 안정성 및 최적성과 구분한다.
안전성과 수렴을 인증하기 위한 신경망 인증서(차단기 및 Lyapunov-like)를 개발한다.
정책과 인증서를 공동으로 학습하고 여러 비선형 시스템에서 검증한다.

제안 방법

경계 함수 B(x)를 출력이 미분가능한 신경망으로 표현한다.
Lyapunov-like 함수 V(x)를 신경망으로 표현하되 2차 형식을 통해 비음수를 보장한다.
세 개의 차단 조건과 Lyapunov 조건을 인코딩하는 차단/ Lyapunov-like 인증 손실을 정의한다.
총 인증 손실을 최소화하도록 신경망 정책과 인증서 네트워크를 함께 최적화한다.
학습된 인증서를 이산화된 상태 샘플과 대조하여 확인하는 검증 단계를 포함한다.
pendulum, cart-pole, vehicle path tracking, and UAVs를 포함한 비선형 시스템에 방법을 적용한다.

실험 결과

연구 질문

RQ1정책이 unsafe 집합에 대해 안전성을 보이고 동시에 목표 집합으로의 목표 도달을 달성하도록 만들 수 있는가?
RQ2차단기와 Lyapunov-like 인증서를 신경망 정책과 함께 공동으로 학습하여 안전성과 수렴을 보장할 수 있는가?
RQ3학습된 인증서가 이론적 조건을 충족하는지 어떻게 검증할 수 있는가?
RQ4실제로 다양한 비선형 시스템에서 이 접근 방식의 성능은 어떻게 나타나는가?

주요 결과

신경망 정책과 함께 barrier 및 Lyapunov-like 인증서를 공동 학습하면 안전하고 목표 달성 가능한 동작이 얻어진다.
Lyapunov-like 인증서만 사용하면 목표 달성은 가능하지만 안전성이 결여될 수 있으며; barrier+Lyapunov-like 인증서가 안전성을 보장한다.
pendulum, cart-pole, vehicle path tracking, 그리고 UAV 제어 과제에서 성공적인 안전 보장을 가진 방법의 시연.
이산화된 상태 집합에서 인증서 속성을 검증하기 위한 검증 단계가 학습과 함께 수행된다.
실험 결과 학습된 인증서가 테스트된 시나리오에서 입증 가능한 안전성 및 수렴 보장을 제공함을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.