QUICK REVIEW

[논문 리뷰] Learning-based Model Predictive Control for Safe Exploration and Reinforcement Learning

Torsten Koller, Felix Berkenkamp|arXiv (Cornell University)|2019. 06. 27.

Advanced Control Systems Optimization참고 문헌 44인용 수 52

한 줄 요약

입력 의존 불확실성을 갖는 비선형 시스템에 대해 고확률 안전 보장을 제공하는 학습 기반 MPC 접근 방식으로, 안전한 탐색과 강화학습과의 통합을 가능하게 한다.

ABSTRACT

Reinforcement learning has been successfully used to solve difficult tasks in complex unknown environments. However, these methods typically do not provide any safety guarantees during the learning process. This is particularly problematic, since reinforcement learning agent actively explore their environment. This prevents their use in safety-critical, real-world applications. In this paper, we present a learning-based model predictive control scheme that provides high-probability safety guarantees throughout the learning process. Based on a reliable statistical model, we construct provably accurate confidence intervals on predicted trajectories. Unlike previous approaches, we allow for input-dependent uncertainties. Based on these reliable predictions, we guarantee that trajectories satisfy safety constraints. Moreover, we use a terminal set constraint to recursively guarantee the existence of safe control actions at every iteration. We evaluate the resulting algorithm to safely explore the dynamics of an inverted pendulum and to solve a reinforcement learning task on a cart-pole system with safety constraints.

연구 동기 및 목표

탐색이 안전 제약을 존중해야 하는 미지의 환경에서 안전한 학습을 촉진한다.
확신 구간으로 불확실한 오차를 포착하기 위해 시스템 동역학의 통계적 모델을 학습한다.
입력 의존 불확실성을 처리하는 다단 예측을 개발한다.
안전한 집합과 종단 제약을 통해 매 이터레이션에서 실행 가능성과 안전성을 보장한다.
계획과 학습을 결합하여 RL을 위한 안전한 탐색과 작업 주도 데이터 수집을 가능하게 한다.

제안 방법

알려진 사전 h와 미지의 리프시츠 g를 가진 x_{t+1} = h(x_t,u_t) + g(x_t,u_t)로 미지의 동역학 모델링.
GP를 사용해 g를 모델링하고, 고확률 신뢰구간을 갖는 점 추정 μ_n 및 불확실성 σ_n를 도출한다.
RKHS 특성과 GP 이론을 이용해 입력 의존 불확실성(β·σ)을 수용하는 신뢰구간을 구성한다.
시간에 따라 불확실성을 전파하기 위한 다단 상태 예측에 대한 타원형 과대추정을 개발한다.
안전 제약과 안전한 종단 집합을 보장하는 강건한 MPC를 형상화하여 실행 가능한 안전한 행동을 보장한다.
안전-주도 트라젝토리와 성능-주도 계획을 결합하여 RL을 주도하는 안전한 탐색을 통합한다.]

실험 결과

연구 질문

RQ1입력 의존 불확실성이 존재하는 상황에서 학습 기반 제어 중 고확률로 안전을 보장할 수 있는가?
RQ2예측을 통해 다단 불확실성을 전파하여 안전한 트레이젝토리를 계획하고 실행 가능성을 유지할 수 있는가?
RQ3제약을 위반하지 않으면서 작업 성능을 향상시키기 위해 안전한 탐색을 강화학습과 어떻게 통합할 수 있는가?
RQ4학습 동역학 하에서 재귀적 실행 가능성을 보장하는 데 있어 보장된 안전한 종단 집합의 역할은 무엇인가?

주요 결과

제안된 MPC 체계는 학습 전반에 걸쳐 고확률 안전 보장을 제공합니다.
입력 의존 불확실성을 다단 예측에서 다루기 위한 두 가지 불확실성 전파 기법이 개발되었습니다.
모델 오차 g에 대한 신뢰 구간은 GP/RKHS 가정에서 도출되어 안정적인 안전 경계를 가능하게 한다.
이 접근법은 안전한 트레이젝토리와 작업 관련 성능 트레이젝트리를 계획함으로써 안전한 탐색과 안전한 모델 기반 RL을 지원한다.
실험은 역진자에서의 안전한 탐색과 가용 제약을 갖춘 카트-폴에서의 안전 RL을 보여준다.
이 방법은 안전 백업 제어기와 학습 기반 계획을 결합하여 제약 조건 충족과 목표 달성을 함께 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.