QUICK REVIEW

[논문 리뷰] Why is Posterior Sampling Better than Optimism for Reinforcement Learning?

Ian Osband, Benjamin Van Roy|arXiv (Cornell University)|2016. 07. 01.

Advanced Bandit Algorithms Research참고 문헌 29인용 수 115

한 줄 요약

본 논문은 posterior sampling (PSRL)이 Bayesian regret에서 낙관적 RL과 같거나 우수함을 보이고, finite-horizon MDP에서 개선된 상한 ~O(H√SAT)을 달성하며, 실험적으로 UCRL2와 같은 OFU 기반 방법을 능가함을 보여준다.

ABSTRACT

Computational results demonstrate that posterior sampling for reinforcement learning (PSRL) dramatically outperforms algorithms driven by optimism, such as UCRL2. We provide insight into the extent of this performance boost and the phenomenon that drives it. We leverage this insight to establish an $\ ilde{O}(H\\sqrt{SAT})$ Bayesian expected regret bound for PSRL in finite-horizon episodic Markov decision processes, where $H$ is the horizon, $S$ is the number of states, $A$ is the number of actions and $T$ is the time elapsed. This improves upon the best previous bound of $\ ilde{O}(H S \\sqrt{AT})$ for any reinforcement learning algorithm.

연구 동기 및 목표

Bayesian 프레임워크 하에서 finite-horizon MDP에서 탐험-활용(탐색-활용) 균형의 동기를 제시한다.
후방샘플링(PSRL)과 OFU 알고리즘(UCRL2 등)의 탐욕 기반? OFU 알고리즘과의 regret과 샘플 효율성 측면에서 비교한다.
PSRL에 대한 Bayesian regret 경계를 도출하여 모든 RL 알고리즘의 기존 상한을 개선한다.
PSRL이 OFU 방법보다 우수하다는 실증적 근거를 제시하고 계산 효율성과 통계적 효율성 간의 trade-off를 논의한다.

제안 방법

강화학습을 알 수 없는 MDP를 확률 변수로 간주하는 Bayesian RL로 형식화한다.
BayesRegret를 정의하고 PSRL을 확률적 낙관성(stochastic optimism)을 통해 OFU와 연관시킨다.
Gaussian-Dirichlet concentration 도구와 posterior sampling 주장을 사용하여 PSRL의 BayesRegret 경계가 ~O(H√SAT)임을 입증한다.
제시된 수렴보다 더 타이트한 경계 ~O(√(HSAT))를 추측하고 하한과 대조한다; 계산 실험으로 이론을 지지한다.
추측된 개선과 계산적 트레이드오프를 설명하기 위한 Gaussian-PSRL 변형을 포함한다.]

실험 결과

연구 질문

RQ1PSRL이 OFU 기반 RL 알고리즘에 비해 Bayesian regret에서 어떤 성능을 보이는가?
RQ2기존의 OFU 접근법과 비교하여 유한-시간 표 형 MDP에서 PSRL이 개선된 Bayesian regret 경계를 달성할 수 있는가?
RQ3PSRL의 성능을 좌우하는 신뢰구간 구성(confidence-set)과 샘플링의 역할은 무엇인가?
RQ4실험 결과가 PSRL의 이론적 이점을 UCRL2 및 관련 OFU 방법들에 대해 뒷받침하는가?

주요 결과

PSRL은 Bayesian regret에서 상수인수까지 낙관적 RL의 통계적 효율성과 일치한다.
PSRL은 Bayesian regret 경계가 Õ(H√SAT)이며, 이는 어떤 RL 알고리즘에 대한 이전의 Õ(HS√AT) 경계보다 개선된다.
실험 결과 PSRL은 finite-horizon MDP에서 UCRL2와 같은 OFU 기반 방법을 상당히 능가한다.
본 논문은 OFU만으로 유사한 통계적 효율성을 달성하는 것이 계산적으로 실현 불가능할 수 있으며, 반면 PSRL은 여전히 실현 가능하다고 주장한다.
일부 분석에서 특정 경우 더 타이트한 경계 Õ(√(HSAT))가 가능하다는 개선에 대한 추측을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.