QUICK REVIEW

[논문 리뷰] Safe exploration of nonlinear dynamical systems: A predictive safety filter for reinforcement learning.

Kim P. Wabersich, Melanie N. Zeilinger|arXiv (Cornell University)|2018. 12. 13.

Advanced Control Systems Optimization참고 문헌 38인용 수 40

한 줄 요약

이 논문은 비선형 동역학 시스템에서 연속적인 상태 및 입력 공간을 가진 실세계 물리 시스템에 안전한 강화학습(Reinforcement Learning, RL)을 가능하게 하는 예측 안전 필터를 제안한다. 이 필터는 어떤 RL 정책에서 유래한 위험한 동작이라도 실시간으로 동적으로 수정함으로써 안전성을 확보한다. 필터는 불확실성 인식 안정성 제약 조건을 갖춘 데이터 기반 모델 예측 제어 설정을 사용하여, 기반 RL 알고리즘을 수정하지 않고도 안전성을 보장한다.

ABSTRACT

The transfer of reinforcement learning (RL) techniques into real-world applications is challenged by safety requirements in the presence of physical limitations. Most RL methods, in particular the most popular algorithms, do not support explicit consideration of state and input constraints. In this paper, we address this problem for nonlinear systems with continuous state and input spaces by introducing a predictive safety filter, which is able to turn a constrained dynamical system into an unconstrained safe system, to which any RL algorithm can be applied `out-of-the-box'. The predictive safety filter receives the proposed learning input and decides, based on the current system state, if it can be safely applied to the real system, or if it has to be modified otherwise. Safety is thereby established by a continuously updated safety policy, which is based on a model predictive control formulation using a data-driven system model and considering state and input dependent uncertainties.

연구 동기 및 목표

실세계 물리 시스템에 적용될 때 표준 강화학습(RL) 알고리즘에서 명시적인 안전 제약 조건이 부족한 문제를 해결하기 위해.
물리적 및 운영적 제약 조건 하에서 연속적인 상태 및 입력 공간을 가진 비선형 동역학 시스템에서의 안전 탐색을 가능하게 하기 위해.
기반 RL 알고리즘의 학습 과정을 수정하지 않고도 즉시 적용 가능한 일반 목적의 안전 필터를 개발하기 위해.
상태 및 입력에 따라 변하는 불확실성을 고려한 지속적으로 업데이트되는 안전 정책을 통해 안전성을 확보하기 위해.

제안 방법

안전 필터는 시스템 동역학의 데이터 기반 모델을 사용하여 향후 상태를 예측하고 실시간으로 동작의 안전성을 평가한다.
상태 및 입력 제약 조건을 준수하는 안전한 제어 입력을 계산하기 위해 모델 예측 제어(MPC) 설정을 적용한다.
현재 시스템 상태와 불확실성 범위를 바탕으로, RL 정책이 제시한 동작이 안전 제약 조건을 위반할 경우 동적으로 수정한다.
시스템 모델의 불확실성은 명시적으로 모델링되고 MPC 최적화 과정을 통해 전파되어 모델 정확도가 떨어지는 상황에서도 안전성을 유지한다.
온라인 학습 또는 적응형 추정을 통해 안전 정책을 지속적으로 업데이트하여 현재 시스템 행동과 불확실성을 반영한다.
필터는 실시간으로 작동하여 RL 에이전트가 안정성과 제약 조건 준수를 유지하면서 안전하게 탐색할 수 있도록 한다.

실험 결과

연구 질문

RQ1물리적 제약 조건 하에서 연속적인 상태 및 입력 공간을 가진 비선형 동역학 시스템에 강화학습을 어떻게 안전하게 적용할 수 있는가?
RQ2기본 학습 과정을 수정하지 않고도 어떤 RL 알고리즘과도 호환되는 일반 목적의 안전 필터를 설계할 수 있는가?
RQ3모델의 불확실성과 상태/입력에 따라 변하는 외란을 안전 필터에 어떻게 통합하여 강건성을 확보할 수 있는가?
RQ4제안된 필터의 성능 및 안전성 간의 상충 관계는 제약 위반과 학습 효율성 측면에서 어떻게 평가될 수 있는가?

주요 결과

예측 안전 필터는 RL 정책에서 유래한 위험한 동작을 실시간으로 동적으로 수정함으로써 비선형 시스템에서의 안전한 탐색을 성공적으로 가능하게 한다.
기반 RL 알고리즘을 수정하지 않고도 안전성이 보장되어 즉시 적용 가능한 통합이 가능하다.
상태 및 입력에 따라 변하는 불확실성 범위를 MPC 설정에 통합함으로써 모델 불확실성 상황에서도 안전성이 유지된다.
표준 RL이 제약 위반 또는 위험한 행동을 유도할 수 있는 시스템에서도 안정적이고 제약 조건을 준수하는 학습을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.