QUICK REVIEW

[논문 리뷰] Unifying PAC and Regret: Uniform PAC Bounds for Episodic Reinforcement Learning

Christoph Dann, Tor Lattimore|arXiv (Cornell University)|2017. 03. 22.

Advanced Bandit Algorithms Research참고 문헌 23인용 수 60

한 줄 요약

논문은 Uniform-PAC를 도입하여 PAC와 에피소드 RL의 후회를 통합하고, 시간-균일 신뢰 구간을 사용하는 낙관적 알고리즘 UBEV를 제시한다. 이 알고리즘은 거의 최적의 Uniform-PAC 및 후회 경계를 달성한다.

ABSTRACT

Statistical performance bounds for reinforcement learning (RL) algorithms can be critical for high-stakes applications like healthcare. This paper introduces a new framework for theoretically measuring the performance of such algorithms called Uniform-PAC, which is a strengthening of the classical Probably Approximately Correct (PAC) framework. In contrast to the PAC framework, the uniform version may be used to derive high probability regret guarantees and so forms a bridge between the two setups that has been missing in the literature. We demonstrate the benefits of the new framework for finite-state episodic MDPs with a new algorithm that is Uniform-PAC and simultaneously achieves optimal regret and PAC guarantees except for a factor of the horizon.

연구 동기 및 목표

에피소드 RL에서 모든 epsilon 수준에서 오차를 동시에 바운드하는 성능 보장의 필요성에 대한 동기를 부여한다.
Uniform-PAC를 PAC의 강력하고 시간-균일한 확장으로 정의하여 높은 확률의 후회 경계를 암시한다.
Uniform-PAC를 달성하는 동시에 거의 최적의 PAC 및 후회 보장을 제공하는 알고리즘을 개발한다.
Uniform-PAC이 높은 확률로 최적 정책으로의 수렴을 암시함을 이론적으로 보인다.

제안 방법

Uniform-PAC를 프레/framework로 도입하고 이를 PAC 및 후회 보장과 관련지어 설명한다.
시간-균일한 법칙의 반복 로그(LIL) 신뢰 구간을 사용하는 낙관적 RL 알고리즘인 UBEV를 제안한다.
시간 의존적 동역학을 갖는 에피소드 고정-수평 MDP를 모델링하고 전이 및 보상에 대한 신뢰 구간으로 역귀납(backward induction)을 사용한다.
LIL 기반 신뢰 폭 φ(s,a,t) = sqrt((2 ln ln max{e,n(s,a,t)}) + ln(18SAH/δ)) / sqrt(n(s,a,t)).
UBEВ는 Uniform-PAC 경계를 달성하고 Almost 최적의 후회를 달성함을 보이고, 샘플 복잡도와 후회 의존성은 Theorem 4에 설명되어 있다.

실험 결과

연구 질문

RQ1Uniform-PAC가 에피소드 RL에서 모든 epsilon 수준에 대해 동시에 높은 확률 보장을 제공할 수 있는가?
RQ2알고리즘이 Uniform-PAC이며 또한 거의 최적의 PAC 및 후회 보장을 달성할 수 있는가?
RQ3RL에서 Uniform하고 시간에 구애받지 않는 보장을 가능하게 하는 신뢰구간 구성이 무엇인가?
RQ4RL에서 Uniform-PAC 보장은 기존의 PAC 및 에피소드 MDP의 후회 개념과 어떤 관계가 있는가?
RQ5PAC 또는 후회 보장을 Uniform-PAC 보장으로 변환하는 이론적 한계는 무엇인가?

주요 결과

UBEV는 Uniform-PAC이며 ε-오류의 횟수 경계가 O(SAGH^4/ε^2)와 polylog 계수들로 스케일링된다.
확률이 적어도 1−δ일 때, UBEV는 후회 R(T) = O(H^2(√(SAT) + S^3A^2) polylog(S,A,H,T))를 보장한다.
Uniform-PAC 보장은 높은 확률로 최적 정책으로의 수렴을 암시하고 Uniform High-Probability Regret 경계를 제공한다.
Uniform-PAC는 PAC 및 high-probability regret보다 엄격하게 강하하다고 증명되며, 가능할 때 두 가지를 모두 암시한다.
UBEV는 시간-균일 LIL 신뢰 구간을 사용하여 n이 증가함에 따라 √(log log n)/n으로 축소되며, 모든 에피소드에 대해 균일한 보장을 가능하게 한다.
이 경계는 이전 MBIE형 결과에 비해 수평 의존성을 줄이고 S, A, H에 대한 거의 최적의 의존성을 달성함으로써 개선된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.