[논문 리뷰] Is Reinforcement Learning More Difficult Than Bandits? A Near-optimal Algorithm Escaping the Curse of Horizon
이 논문은 MVP를 도입한다. 이는 Bernstein형 보너스를 갖춘 단조로운 가치 전파 알고리즘으로, 에피소드 RL에서 거의 밴딧 샘플 복잡도에 근접하며, 맥락적 밴딧 하한에 가까운 후회와 지평선 H에 대한 로그 의존성을 보인다.
Episodic reinforcement learning and contextual bandits are two widely studied sequential decision-making problems. Episodic reinforcement learning generalizes contextual bandits and is often perceived to be more difficult due to long planning horizon and unknown state-dependent transitions. The current paper shows that the long planning horizon and the unknown state-dependent transitions (at most) pose little additional difficulty on sample complexity. We consider the episodic reinforcement learning with $S$ states, $A$ actions, planning horizon $H$, total reward bounded by $1$, and the agent plays for $K$ episodes. We propose a new algorithm, extbf{M}onotonic extbf{V}alue extbf{P}ropagation (MVP), which relies on a new Bernstein-type bonus. Compared to existing bonus constructions, the new bonus is tighter since it is based on a well-designed monotonic value function. In particular, the \emph{constants} in the bonus should be subtly setting to ensure optimism and monotonicity. We show MVP enjoys an $O\left(\left(\sqrt{SAK} + S^2A ight) \poly\log \left(SAHK ight) ight)$ regret, approaching the $Ω\left(\sqrt{SAK} ight)$ lower bound of \emph{contextual bandits} up to logarithmic terms. Notably, this result 1) \emph{exponentially} improves the state-of-the-art polynomial-time algorithms by Dann et al. [2019] and Zanette et al. [2019] in terms of the dependency on $H$, and 2) \emph{exponentially} improves the running time in [Wang et al. 2020] and significantly improves the dependency on $S$, $A$ and $K$ in sample complexity.
연구 동기 및 목표
- 경계된 총 보상하에서 에피소드 RL이 맥락적 밴딧과 샘플 효율성 면에서 대등해질 수 있는지 평가한다.
- 지평선 H에 대해 로그 의존성을 갖는 계산적으로 효율적인 알고리즘 개발.
- 베르스테인형 탐색 보너스를 도입하여 낙관성과 단조로운 가치 전파를 보장한다.
- 이론적 보장 제공: 밴딧 하한에 로그 인자까지 근접한 후회 및 PAC 경계.
제안 방법
- Monotonic Value Propagation (MVP)을 제안한다. 이는 새로운 Bernstein-type 보너스를 갖춘 UCB 기반 모델 기반 알고리즘이다.
- Q_h(s,a) 정의: Q_h(s,a) = hat{r}(s,a) + hat{P}_{s,a} V_{h+1} + b_h(s,a) 그리고 낙관성을 보장한다.
- 단조성 속성 도입: Q_h(V_{h+1})는 V_{h+1}에 대해 증가하며, 이는 지평선에 의존하지 않는 낙관성 전파를 가능하게 한다.
- 보상과 전이 업데이트를 위해 트리거 기반 더블링 업데이트 프레임워크를 사용하고 에피소드 간 추정치를 전파한다.
- 고차 모멘트 전개를 통해 지평선 전체 분산을 제어하는 재귀 분산 경계 기법 도출.
- 후회 및 PAC 경계를 확립: Regret(K) = O((sqrt(SAK) + S^2A) polylog(SAHK/δ)) 및 PAC-RL 경계 O((SA/ε^2) + (S^2A/ε)) polylog 인자.
실험 결과
연구 질문
- RQ1경계된 총 보상 하에서 에피소드 RL이 맥락적 밴딧보다 추가 샘플 복잡도를 야기하는가?
- RQ2대수록 로그 인자까지 CB 하한과 일치하는 후회 및 PAC 보장을 갖춘 계산적으로 효율적인 알고리즘을 설계할 수 있는가?
- RQ3최적 근접 샘플 복잡도를 유지하면서 지평선 의존성을 다항식이 아니라 로그로 만들 수 있는가?
- RQ4지평선 전체에서 낙관성과 단조로운 가치 전파를 보장하는 탐색 보너스 구조는 어떤 것인가?
주요 결과
- MVP는 고확률로 후회 O((sqrt(SAK) + S^2A) polylog(SAHK))를 달성한다.
- 표준 축약은 ε-하위최적 정책을 O((SA/ε^2) + (S^2A/ε)) polylog(SAH/εδ) 에피소드에서 찾을 수 있음을 보여준다.
- 알고리즘은 계산적으로 효율적(다항 시간)이며, 경계에서 H에 대한 로그 의존성을 달성한다.
- 새로운 Bernstein-type 보너스와 단조성 속성이 결합되어 거의 밴딧 성능에 필요한 낙관성을 강화한다.
- 결과는 RL과 CB 간의 격차를 크게 좁히고, H 의존 및 S,A,K 규모에 대해 이전의 다항시간 알고리즘보다 개선되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.