QUICK REVIEW

[논문 리뷰] Safe Policy Improvement with Baseline Bootstrapping

Romain Laroche, Paul Trichelair|arXiv (Cornell University)|2017. 12. 19.

Information and Cyber Security인용 수 82

한 줄 요약

이 논문은 SPIBB를 제안하며, uncertain 상태-행동 쌍에서 학습된 정책을 기준선으로 부트스트랩하는 안전한 배치 강화학습 방법으로 이론적 안전 보장을 제공하고, 실용적인 모델프리 버전인 SPIBB-DQN을 제시합니다.

ABSTRACT

This paper considers Safe Policy Improvement (SPI) in Batch Reinforcement Learning (Batch RL): from a fixed dataset and without direct access to the true environment, train a policy that is guaranteed to perform at least as well as the baseline policy used to collect the data. Our approach, called SPI with Baseline Bootstrapping (SPIBB), is inspired by the knows-what-it-knows paradigm: it bootstraps the trained policy with the baseline when the uncertainty is high. Our first algorithm, $Π_b$-SPIBB, comes with SPI theoretical guarantees. We also implement a variant, $Π_{\leq b}$-SPIBB, that is even more efficient in practice. We apply our algorithms to a motivational stochastic gridworld domain and further demonstrate on randomly generated MDPs the superiority of SPIBB with respect to existing algorithms, not only in safety but also in mean performance. Finally, we implement a model-free version of SPIBB and show its benefits on a navigation task with deep RL implementation called SPIBB-DQN, which is, to the best of our knowledge, the first RL algorithm relying on a neural network representation able to train efficiently and reliably from batch data, without any interaction with the environment.

연구 동기 및 목표

오프라인 배치 RL에서 실제 환경을 사용할 수 없을 때 안전한 정책 개선을 동기화합니다.
기준 정책을 사용하여 불확실한 상태-행동 쌍에서 결정을 부트스트랩하는 SPIBB 프레임워크를 도입합니다.
거의 안전한 개선에 대한 이론적 보장과 계산적으로 효율적인 변형을 개발합니다.
스케일러블한 응용을 위해 SPIBB를 모델프리 및 신경망 기반 설정으로 확장합니다.
그리드월드, 임의 MDP 및 딥 RL 탐색 작업 전반에서 실험적으로 안전성과 성능 이점을 입증합니다.

제안 방법

개선이 기준선에 대해 안전하게 작용하도록 불확실성 집합에서의 개선을 제약하는 분위수/안전성 기준 재구성을 정의합니다.
희귀한 (x,a) 쌍이 기준선(Pi_b) 따라가도록 강제하는 부트스트랩 상태-행동 집합을 도입합니다(Pi_b-SPIBB).
Pi_b-SPIBB 제약 하에서 수렴 보장을 갖는 모델 기반 정책 이터레이션을 개발합니다.
실용적 성능을 위한 부트스트랩 제약을 완화하는 더 관대 한 Pi_≤b-SPIBB 변형을 제공합니다.
환경 상호작용 없이 배치 데이터에서 안전한 학습을 가능하게 하는 SPIBB 타깃의 모델프리 버전과, 신경망을 위한 의사카운트 영감의 부트스트래핑을 사용하는 SPIBB-DQN을 제공합니다.
수록 N_◇를 안전성과 개선과 연관 짓는 관련 이론적 경계를 제시합니다.

실험 결과

연구 질문

RQ1오프라인 배치 RL 설정에서 환경과의 상호작용 없이 주어진 기준선보다 정책을 개선한다고 보장할 수 있는가?
RQ2기준선 부트스트래핑을 활용해 불확실한 상태-행동 쌍에서 정책 개선을 안전하게 제약하는 방법은 무엇인가?
RQ3모델 기반 Pi_b-SPIBB와 보다 실용적인 Pi_≤b-SPIBB 사이의 안전성과 성능 측면의 trade-off는 무엇인가?
RQ4SPIBB를 모델프리 및 딥 RL 설정으로 확장해 대규모 오프라인 개선을 가능하게 할 수 있는가?
RQ5SPIBB 변형들이 다양한 도메인(그리드월드, 임의 MDP, 탐색 작업)에서 기존 SPI 방법과 비교해 어떤 성능을 보이는가?

주요 결과

SPIBB는 유한 MDP에서 기준선보다 안전한 정책 개선을 높은 확률로 보장합니다.
Pi_b-SPIBB는 추정된 MDP에서 Pi_b-최적 정책으로 수렴하고 기준선보다 제로-근사 안전한 개선을 제공합니다.
Pi_≤b-SPIBB는 실용적인 안전성 및 효율성을 유지하면서 더 나은 또는 유사한 개선을 달성하는 경우가 많습니다.
모델프리 SPIBB 변형과 SPIBB-DQN은 환경 상호작용 없이 배치 데이터로 안전한 학습을 가능하게 합니다.
실험 결과 SPIBB 변형들이 그리드월드 및 임의 MDP에서 평균 성능 및 CVaR 안전성 측면에서 여러 베이스라인을 능가하는 경향을 보였고, SPIBB-DQN은 연속 탐색 작업에서 안전한 개선을 보여주었습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.