QUICK REVIEW

[논문 리뷰] Provably Efficient Safe Exploration via Primal-Dual Policy Optimization

Dong-Sheng Ding, Xiaohan Wei|arXiv (Cornell University)|2020. 03. 01.

Reinforcement Learning in Robotics참고 문헌 62인용 수 35

한 줄 요약

본 논문은 OPDOP를 도입합니다. 이는 선형 함수 근사를 갖는 제약 CMDP에 대한 낙관적 프라이멀-듀얼 근사 정책 최적화 알고리즘으로, 밴딧 피드백 하에서 서브선형 적합도( regrets )와 제약 위반을 달성합니다. 또한 함수 근사 설정에서 안전한 탐색을 갖춘 CMDP에 대한 증명 가능한 효율적인 온라인 정책 최적화 보장을 최초로 제공합니다.

ABSTRACT

We study the Safe Reinforcement Learning (SRL) problem using the Constrained Markov Decision Process (CMDP) formulation in which an agent aims to maximize the expected total reward subject to a safety constraint on the expected total value of a utility function. We focus on an episodic setting with the function approximation where the Markov transition kernels have a linear structure but do not impose any additional assumptions on the sampling model. Designing SRL algorithms with provable computational and statistical efficiency is particularly challenging under this setting because of the need to incorporate both the safety constraint and the function approximation into the fundamental exploitation/exploration tradeoff. To this end, we present an \underline{O}ptimistic \underline{P}rimal-\underline{D}ual Proximal Policy \underline{OP}timization (OPDOP) algorithm where the value function is estimated by combining the least-squares policy evaluation and an additional bonus term for safe exploration. We prove that the proposed algorithm achieves an $ ilde{O}(d H^{2.5}\sqrt{T})$ regret and an $ ilde{O}(d H^{2.5}\sqrt{T})$ constraint violation, where $d$ is the dimension of the feature mapping, $H$ is the horizon of each episode, and $T$ is the total number of steps. These bounds hold when the reward/utility functions are fixed but the feedback after each episode is bandit. Our bounds depend on the capacity of the state-action space only through the dimension of the feature mapping and thus our results hold even when the number of states goes to infinity. To the best of our knowledge, we provide the first provably efficient online policy optimization algorithm for CMDP with safe exploration in the function approximation setting.

연구 동기 및 목표

제한 조건과 알려지지 않은 전이에서 CMDP 형식을 사용한 Episodic 설정의 안전 강화학습(SRL) 동기를 부여한다.
연속적 스트리밍 밴딧 피드백으로 학습하면서 안전 제약을 다루는 온라인, 샘플 효율적인 알고리즘을 개발한다.
히indsight에서의 최상의 정책에 비례한 서브선형적 regret와 제약 위반 보장을 이론적으로 제시한다.
특징 차원(d)에 의해 상태 공간 크기에 의존하지 않는 경계값이 정의되어 무한대이거나 매우 큰 상태 공간에서도 적용 가능하다는 점을 보인다.

제안 방법

OPDOP를 제안한다: 에피소드당 정책 개선, 듀얼 업데이트, 정책 평가의 세 단계를 갖는 낙관적 프라이멀-듀얼 근사 정책 최적화 알고리즘.
Y 듀얼 변수와 함께 LM과 같은 라그랑지안(Lagrangian)을 사용하고, 상태별로 분리될 수 있는 거울 하강 방식의 업데이트를 통해 KL-발산 정규화 항을 포함하여 정책 개선을 수행한다.
LSTD(Least-Squares Temporal Difference) 스타일 업데이트를 통해 가치 함수 추정에서 Upper Confidence Bound(UCB) 보너스를 도입하여 낙관성을 반영한다.
선형 함수 근사로 보상 r과 효용 g를 추정하고 UCB 보너스로 Q와 V 함수를 계산하여 탐색을 유도한다.
보상 극대화와 제약 준수의 균형을 맞추기 위해 파생된 그래디언트 하향 업데이트로 듀얼 변수 Y를 업데이트하여 장기적으로 타당성을 보장한다.
(P_h V_{…,h+1}) 항을 추정하기 위해 LSTD(Algorithm 2)를 활용하고, 선형 MDP 설정에서 전이와 보상을 표현하는 피처 맵 psi와 phi를 사용한다.

실험 결과

연구 질문

RQ1함수 근사하에서 알려지지 않은 전이의 CMDP에 대해 증명 가능하게 효율적인 온라인 정책 최적화 알고리즘을 설계할 수 있는가?
RQ2선형 구조를 갖는 에피소드 CMDP에서 밴딧 피드백으로 학습할 때의 regrets와 제약 위반 경계는 무엇인가?
RQ3안전 제약 함수가 알려지지 않고 상호작용을 통해서만 드러나는 상황에서 안전한 탐색을 어떻게 달성할 수 있는가?
RQ4특징 차원 d, 수평선 H, 총 단계 수 T에서 경계가 어떻게 스케일되며 무한 상태 공간에서도 유효한가?
RQ5제약 RL 설정에서 오라클 솔버 없이도 낙관적 프라이멀-듀얼 거울 하강 접근이 실현 가능하고 증명 가능한 보장을 제공하는가?

주요 결과

OPDOP는 밴딧 피드백 하에서 서브선형의 regret와 서브선형의 제약 위반을 달성한다: 두 항 모두 Õ(d H^{2.5} sqrt(T))로 스케일링한다.
경계는 상태 공간이 무한할 수 있는 가능성을 포함해 특징 차원 d에 의존하고, 따라서 큰 또는 무한한 상태 공간에 적용 가능하다.
함수 근사 설정에서 안전한 탐색을 포함한 CMDP에 대한 최초의 증명 가능한 효율적 온라인 정책 최적화 결과이다.
알고리즘은 최소제곱 정책 평가를 안전 탐색 보너스와 온라인 프라이멀-듀얼 거울 하강 업데이트와 결합한다.
듀얼 업데이트는 보상 극대화와 제약 만족 사이의 균형을 맞춰 기대 내에서의 타당성과 에피소드 간의 서브선형 위반을 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.