QUICK REVIEW

[논문 리뷰] Tighter Problem-Dependent Regret Bounds in Reinforcement Learning without Domain Knowledge using Value Function Bounds

Andrea Zanette, Emma Brunskill|arXiv (Cornell University)|2019. 01. 01.

Advanced Bandit Algorithms Research참고 문헌 26인용 수 66

한 줄 요약

이 논문은 다음 상태 값의 최대 조건부 분산과 연관된 문제 의존적 후회 경계(bound)를 달성하는 에피소드형 유한-수평 RL 알고리즘 Euler를 제시하며, 일반적으로 최악-케이스 bound와 일치합니다.

ABSTRACT

Strong worst-case performance bounds for episodic reinforcement learning exist but fortunately in practice RL algorithms perform much better than such bounds would predict. Algorithms and theory that provide strong problem-dependent bounds could help illuminate the key features of what makes a RL problem hard and reduce the barrier to using RL algorithms in practice. As a step towards this we derive an algorithm for finite horizon discrete MDPs and associated analysis that both yields state-of-the art worst-case regret bounds in the dominant terms and yields substantially tighter bounds if the RL environment has small environmental norm, which is a function of the variance of the next-state value functions. An important benefit of our algorithmic is that it does not require apriori knowledge of a bound on the environmental norm. As a result of our analysis, we also help address an open learning theory question~\cite{jiang2018open} about episodic MDPs with a constant upper-bound on the sum of rewards, providing a regret bound with no $H$-dependence in the leading term that scales a polynomial function of the number of episodes.

연구 동기 및 목표

강화학습에서 문제의 난이도를 최악의 경우 분석을 넘어서 이해하기 위해 문제 의존적 후회 경계의 필요성을 동기화한다.
사전 환경 지식 없이 분산 인식 보너스로 탐색을 조절하는 알고리즘(Euler)을 제안한다.
환경의 분산(Q*)에 의존하는 고확률 후회 경 Bound를 도출하고, 특정 보상 한정 설정에서 수평선 무관(horizon-independent) 동작을 보임을 보인다.
환경 노름이 낮은 도메인에서 더 촘촘한 경Bound를 제공함을 보이고, 남아 있는 학습 이론상의 질문들을 다룬다.

제안 방법

유한-수평 MDP에 대한 에피소드형 상향-하향 탐색 알고리즘인 Euler를 도입한다.
다음 상태 값의 경험적 분산에 기반한 베르스타인(Bernstein) 유형 보너스를 이용한 불확실성 하의 낙관성(optimism) 활용.
값-함수 불확실성을 보정하는 보너스를 도입하여 낙관성을 보장한다.
보상 추정, 전이 다이내믹 추정/낙관성, 그리고 차차항(lower-order terms)으로 분해하여 후회를 분석한다.
지배적인 탐색 항을 문제 의존적 양인 Q*로 상한하고 이를 최대 수익 G와 연관시킨다.
지배 항에서 알려진 O(sqrt(HSAT)) 속도와 일치하는 최악의 경우 상한을 증명한다.

실험 결과

연구 질문

RQ1문제 구조에 의존하는 에피소드형 유한-수평 MDP의 후회 경계가 가능한가?
RQ2경험적 Bernstein 부등식과 가치 함수 불확실성에 기반한 탐색 보너스가 사전 도메인 지식 없이도 더 촘촘하고 환경 의존적인 후회 경Bound를 제공하는가?
RQ3수평선과 환경 노름이 유한-수평 RL의 후회 경Bound에 어떤 영향을 미치는가?
RQ4제안된 알고리즘이 총 보상이 한정된 에피소드 MDP에서 수평선 의존성에 관한 공개되지 않은 질문들을 다룰 수 있는가?

주요 결과

Euler은 높은 확률로 형태가 tilde{O}( sqrt(Q*SAT) + sqrt(S)SAH^2 (sqrt{S}+sqrt{H}) )와 같은 문제 의존적 후회 상한를 달성한다.
두 번째 경Bound tilde{O}( sqrt(G^2/H · SAT) + sqrt(S)SAH^2 (sqrt{S}+sqrt{H}) )가 주어지며, G가 큰 경우 종종 첫 번째를 더 촘촘하게 만든다.
일부 보상 한정 설정에서 수평선 무관한 동작을 보이는 코릴러리의 결과는 지배 항에서 미니맥스(minimax) 경Bound와 일치한다.
Corollary 1.1은 최악의 경우 경Bound tilde{O}( sqrt{HSAT} + sqrt{S}SAH^2 (sqrt{S}+sqrt{H}) ) 을 제시한다.
Corollary 1.2는 후속 상태 값의 범위 Phi_succ를 사용한 경 Bound를 보여주며 V^{*} 전체에 독립적이고 Phi나 환경 노름이 필요 없이 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.