Skip to main content
QUICK REVIEW

[논문 리뷰] Neural Certificates for Safe Control Policies

Wanxin Jin, Zhaoran Wang|arXiv (Cornell University)|2020. 06. 15.
Fault Detection and Control Systems참고 문헌 18인용 수 43
한 줄 요약

본 논문은 동적 시스템의 안전성과 목표 달성을 보장하기 위해 신경망 차단기(neural barrier)와 Lyapunov-like 인증서를 함께 학습하는 정책을 제안하며, 이를 pendulums, cart-poles, 차량 경로 추적 및 UAV에서 시연한다.

ABSTRACT

This paper develops an approach to learn a policy of a dynamical system that is guaranteed to be both provably safe and goal-reaching. Here, the safety means that a policy must not drive the state of the system to any unsafe region, while the goal-reaching requires the trajectory of the controlled system asymptotically converges to a goal region (a generalization of stability). We obtain the safe and goal-reaching policy by jointly learning two additional certificate functions: a barrier function that guarantees the safety and a developed Lyapunov-like function to fulfill the goal-reaching requirement, both of which are represented by neural networks. We show the effectiveness of the method to learn both safe and goal-reaching policies on various systems, including pendulums, cart-poles, and UAVs.

연구 동기 및 목표

  • 동적 시스템의 정책 학습에서 안전성과 목표 달성의 필요성을 동기화한다.
  • 안전성과 목표 달성을 명확히 정의하고 이를 안정성 및 최적성과 구분한다.
  • 안전성과 수렴을 인증하기 위한 신경망 인증서(차단기 및 Lyapunov-like)를 개발한다.
  • 정책과 인증서를 공동으로 학습하고 여러 비선형 시스템에서 검증한다.

제안 방법

  • 경계 함수 B(x)를 출력이 미분가능한 신경망으로 표현한다.
  • Lyapunov-like 함수 V(x)를 신경망으로 표현하되 2차 형식을 통해 비음수를 보장한다.
  • 세 개의 차단 조건과 Lyapunov 조건을 인코딩하는 차단/ Lyapunov-like 인증 손실을 정의한다.
  • 총 인증 손실을 최소화하도록 신경망 정책과 인증서 네트워크를 함께 최적화한다.
  • 학습된 인증서를 이산화된 상태 샘플과 대조하여 확인하는 검증 단계를 포함한다.
  • pendulum, cart-pole, vehicle path tracking, and UAVs를 포함한 비선형 시스템에 방법을 적용한다.

실험 결과

연구 질문

  • RQ1정책이 unsafe 집합에 대해 안전성을 보이고 동시에 목표 집합으로의 목표 도달을 달성하도록 만들 수 있는가?
  • RQ2차단기와 Lyapunov-like 인증서를 신경망 정책과 함께 공동으로 학습하여 안전성과 수렴을 보장할 수 있는가?
  • RQ3학습된 인증서가 이론적 조건을 충족하는지 어떻게 검증할 수 있는가?
  • RQ4실제로 다양한 비선형 시스템에서 이 접근 방식의 성능은 어떻게 나타나는가?

주요 결과

  • 신경망 정책과 함께 barrier 및 Lyapunov-like 인증서를 공동 학습하면 안전하고 목표 달성 가능한 동작이 얻어진다.
  • Lyapunov-like 인증서만 사용하면 목표 달성은 가능하지만 안전성이 결여될 수 있으며; barrier+Lyapunov-like 인증서가 안전성을 보장한다.
  • pendulum, cart-pole, vehicle path tracking, 그리고 UAV 제어 과제에서 성공적인 안전 보장을 가진 방법의 시연.
  • 이산화된 상태 집합에서 인증서 속성을 검증하기 위한 검증 단계가 학습과 함께 수행된다.
  • 실험 결과 학습된 인증서가 테스트된 시나리오에서 입증 가능한 안전성 및 수렴 보장을 제공함을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.