QUICK REVIEW

[논문 리뷰] Safe Reinforcement Learning in Constrained Markov Decision Processes

Akifumi Wachi, Yanan Sui|arXiv (Cornell University)|2020. 08. 15.

Reinforcement Learning in Robotics인용 수 54

한 줄 요약

tldr: SNO-MDP를 도입한 안전한 거의 최적 강화 학습 알고리즘으로 Unknown 안전 제약이 있는 컨스트레인된 MDP와 ES2를 안전 탐색 가속; GP-Safety-Gym과 Mars 지형 데이터에서 검증.

ABSTRACT

Safe reinforcement learning has been a promising approach for optimizing the policy of an agent that operates in safety-critical applications. In this paper, we propose an algorithm, SNO-MDP, that explores and optimizes Markov decision processes under unknown safety constraints. Specifically, we take a stepwise approach for optimizing safety and cumulative reward. In our method, the agent first learns safety constraints by expanding the safe region, and then optimizes the cumulative reward in the certified safe region. We provide theoretical guarantees on both the satisfaction of the safety constraint and the near-optimality of the cumulative reward under proper regularity assumptions. In our experiments, we demonstrate the effectiveness of SNO-MDP through two experiments: one uses a synthetic data in a new, openly-available environment named GP-SAFETY-GYM, and the other simulates Mars surface exploration by using real observation data.

연구 동기 및 목표

안전성과 보상이 균형을 이루어야 하는 안전 중요 응용 분야에서 안전한 RL의 필요성을 제시한다.
먼저 안전 제약을 학습하고 인증된 안전 영역 안에서 누적 보상을 최적화하는 단계적 방법을 개발한다.
정규성 가정하에 안전 만족도와 근접 최적 보상에 대한 PAC-MDP 스타일의 이론적 보장을 제공한다.
안전 보장을 유지하면서 안전 탐색을 가속화하기 위해 ES2를 제안한다.
합성 GP-Safety-Gym 실험과 Mars 지형 데이터 시뮬레이션을 통해 효과를 입증한다.

제안 방법

미지의 함수들을 포착하기 위해 안전성 및 보상을 Gaussian 프로세스로 모델링하고 낙관적/비관적 안전 공간을 도출한다.
도달 가능성과 회귀 가능성 제약을 갖는 비관적 안전 공간 S_t^-와 낙관적 안전 공간 S_t^+를 정의하여 안전 확장을 보장한다.
GP 유래 신뢰 구간으로 g(s)와 r(s)를 고확률로 상한/하한한다.
SNO-MDP를 두 단계 알고리즘으로 구현: 먼저 안전 영역을 확장하고, 그다음 인증된 안전 영역 안에서 보상을 최적화한다.
추가 보상이 없으면 더 이상 탐색이 보상을 개선할 수 없음을 판단하여 안전 탐색을 조기에 중지하기 위해 보조 MDP M_y와 중지 조건을 평가하는 ES2를 도입한다.
RKHS와 Lipschitz 가정하에 이론적 보장(정리 1 안전성/완전성, 정리 2 근접 최적성, 정리 3 ES2를 통한 근접 최적성)을 제공한다.

실험 결과

연구 질문

RQ1제한된 MDP에서 미지의 보상 함수를 학습하는 동안 안전 제약을 보장할 수 있는가?
RQ2단계적 접근(안전성 우선 학습 후 보상 최적화)이 안전 보장을 갖춘 근사 최적 정책을 산출하는가?
RQ3안전 보장을 해치지 않으면서 안전 탐색을 어떻게 가속화할 수 있는가?
RQ4정규성 가정하에 SNO-MDP와 ES2 변형에 대해 이론적 PAC-MDP 유형 보장이 성립하는가?

주요 결과

SNO-MDP는 탐색 중 높은 확률로 안전을 보장하고 안전 영역 내에서 거의 최적에 가까운 누적 보상을 달성한다.
해당 알고리즘은 주어진 조건 하에 대략적으로 ε_g-안전 도달 가능한 집합을 포함하는 안전 영역으로 수렴하여 안전-완전성을 보장한다.
SNO-MDP는 충분한 탐색 후 ε_V-근접 최적 보상을 달성하고 높은 확률의 안전 보장을 제공한다(PAC-MDP 스타일).
ES2는 보상을 개선할 수 없을 때 안전 탐색을 중지하여 탐색 단계를 줄이면서 근접 최적성 보장을 유지한다.
P-ES2는 안전에 대한 확률적 처리와 함께 실용적 개선을 제공하지만 형식적 근접 최적성 보장은 없다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.