QUICK REVIEW

[논문 리뷰] A Lyapunov-based Approach to Safe Reinforcement Learning

Yinlam Chow, Ofir Nachum|arXiv (Cornell University)|2018. 05. 20.

Reinforcement Learning in Robotics참고 문헌 28인용 수 78

한 줄 요약

이 논문은 안전 강화학습을 제약된 MDP로 형상화하고, 성능 최적화와 동시에 안전을 보장하는 Lyapunov 기반 프레임워크를 도입하며, Safe DP 및 RL 알고리즘으로 SPI, SVI, Safe DQN, Safe DPI를 포함한다.

ABSTRACT

In many real-world reinforcement learning (RL) problems, besides optimizing the main objective function, an agent must concurrently avoid violating a number of constraints. In particular, besides optimizing performance it is crucial to guarantee the safety of an agent during training as well as deployment (e.g. a robot should avoid taking actions - exploratory or not - which irrevocably harm its hardware). To incorporate safety in RL, we derive algorithms under the framework of constrained Markov decision problems (CMDPs), an extension of the standard Markov decision problems (MDPs) augmented with constraints on expected cumulative costs. Our approach hinges on a novel \emph{Lyapunov} method. We define and present a method for constructing Lyapunov functions, which provide an effective way to guarantee the global safety of a behavior policy during training via a set of local, linear constraints. Leveraging these theoretical underpinnings, we show how to use the Lyapunov approach to systematically transform dynamic programming (DP) and RL algorithms into their safe counterparts. To illustrate their effectiveness, we evaluate these algorithms in several CMDP planning and decision-making tasks on a safety benchmark domain. Our results show that our proposed method significantly outperforms existing baselines in balancing constraint satisfaction and performance.

연구 동기 및 목표

누적 비용에 대한 제약을 가진 CMDP로 안전성 모델링.
훈련 및 배치 중 안전을 보장하기 위한 Lyapunov 함수 기반 방법 개발.
Lyapunov 제약을 통해 DP와 RL 알고리즘을 안전한 버전으로 변환.
미지모델 및 큰 상태-행동 공간에 적용 가능한 확장 가능한 안전 알고리즘 제공.
계획(task) 및 RL 과제에서 안전-성능 균형의 개선을 경험적으로 시연.

제안 방법

안전 제약 아래 비용을 최소화하는 누적 제약 비용이 있는 CMDP 정의.
baseline 프레임워크에 안전성과 타당성을 인증하는 Lyapunov 함수 L 도입.
정책 편차의 상한과 baseline 정책을 이용한 LP 기반 Lyapunov 함수 구성 제안.
부트스트랩된 Lyapunov 업데이트를 갖는 안전 DP 알고리즘(Safe Policy Iteration, Safe Value Iteration) 도출.
함수 근사 및 정책 증류를 통한 확장 가능한 안전 RL 방법(Safe DQN, Safe DPI) 개발.
기술적 가정 1에 따라 Lyapunov의 타당성과 CMDP 최적성 간의 이론적 관계를 제공.

실험 결과

연구 질문

RQ1Lyapunov 기반 방법이 학습 및 실행 중 CMDP의 안전을 보장할 수 있는가?
RQ2어떤 조건에서 Lyapunov에 의해 유도된 정책 집합이 최적 CMDP 정책을 포함하는가?
RQ3정책을 허용 가능한 상태를 유지하면서 비용을 개선하는 안전한 버전으로 DP/RL을 어떻게 변환할 수 있는가?

주요 결과

Lyapunov 접근은 가정 1 하에서 최적 정책을 포함하는 실행 가능한 정책 집합을 산출한다.
LP에서 도출된 Lyapunov 함수와 함께하는 Safe Bellman 연산자는 이론적으로 CMDP 최적점으로 수렴하게 한다.
SPI와 SVI는 계획 실험에서 일관된 실행 가능성과 단조 증가를 보인다.
안전한 RL 알고리즘(Safe DQN, Safe DPI)은 안전성과 성능의 균형을 이루고 큰 공간에도 확장 가능하다.
경험적 결과는 안전 제약 계획 및 강화학습 과제에서 안전한 DP 방법이 기초 방법보다 우수함을 보여준다.
학습 중 Lyapunov 함수를 부트스트래핑하면 반복 간 안전성을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.