QUICK REVIEW

[논문 리뷰] Reinforcement Learning for Non-Stationary Markov Decision Processes: The Blessing of (More) Optimism

Wang Chi Cheung, David Simchi‐Levi|arXiv (Cornell University)|2020. 06. 24.

Advanced Bandit Algorithms Research참고 문헌 66인용 수 25

한 줄 요약

이 논문은 시간에 따라 변화하는 보상과 전이를 갖는 비정상적인 마르코프 결정 과정에서 강화 학습을 위한 SWUCRL2-CW 및 BORL 알고리즘을 제안한다. 이 알고리즘은 변화 예산으로 제한된 보상 및 전이 분포를 다루며, 새로운 신뢰도 확장 기법과 향상된 낙관주의를 도입하여 비정상적인 강화 학습의 과제를 해결한다. 변화 예산에 대한 사전 지식이 없이도 동적 복귀율 상한선 $\tilde{O}(D_{\text{max}}(B_r + B_p + 1)^{1/4} S^{2/3} A^{1/2} T^{3/4})$ 를 달성한다.

ABSTRACT

We consider un-discounted reinforcement learning (RL) in Markov decision processes (MDPs) under drifting non-stationarity, i.e., both the reward and state transition distributions are allowed to evolve over time, as long as their respective total variations, quantified by suitable metrics, do not exceed certain variation budgets. We first develop the Sliding Window Upper-Confidence bound for Reinforcement Learning with Confidence Widening (SWUCRL2-CW) algorithm, and establish its dynamic regret bound when the variation budgets are known. In addition, we propose the Bandit-over-Reinforcement Learning (BORL) algorithm to adaptively tune the SWUCRL2-CW algorithm to achieve the same dynamic regret bound, but in a parameter-free manner, i.e., without knowing the variation budgets. Notably, learning non-stationary MDPs via the conventional optimistic exploration technique presents a unique challenge absent in existing (non-stationary) bandit learning settings. We overcome the challenge by a novel confidence widening technique that incorporates additional optimism.

연구 동기 및 목표

보상 및 전이 분포가 시간에 따라 변화하는 비정상적인 MDP 환경에서 학습하는 데 도전하는 것.
기존의 낙관적 탐색 기법이 비정상적인 강화 학습에서 실패하는 문제를 해결하기 위해 새로운 신뢰도 확장 기법을 도입하는 것.
변화 예산에 대한 사전 지식이 없이도 하이퍼파ram터를 적응적으로 조정하는 파rameter-free 알고리즘(BORL)을 설계하는 것.
비정상적인 MDP에서 변화 예산이 알려진 경우와 알려지지 않은 경우에 대해 엄밀한 동적 복귀율 상한선을 확립하는 것.

제안 방법

비정상적인 동적 환경을 다룰 수 있도록 추가 낙관주의를 통합한 슬라이딩 윈도우 UCB 알고리즘인 SWUCRL2-CW를 도입한다.
각 블록에서 고정된 윈도우 길이 $W_i$ 와 신뢰도 확장 파ram터 $\eta_i$ 를 사용하여 가치 함수를 추정하는 블록 기반 구조를 적용한다.
BORL에서 EXP3.P 알고리즘을 사용하여 블록 간 $W_i$ 와 $\eta_i$ 를 적응적으로 선택하며, 파ram터 선택 문제를 적대적 밴디트 문제로 간주한다.
신뢰도 확장을 통해 불확실성 간격을 확장하여 환경의 변화가 발생하더라도 낙관주의를 유지한다. 이는 비정상적인 MDP에서 매우 중요하다.
복귀율 분해를 두 부분으로 나눈다: 고정된 파ram터에 기인한 복귀율과 EXP3.P를 통한 적응적 파ram터 선택에 기인한 복귀율.
EXP3.P의 $\tilde{O}(\sqrt{TH})$ 복귀율 상한선을 활용하여 적응적 구성 요소를 분석하고, SWUCRL2-CW의 이론적 상한선과 결합한다.

실험 결과

연구 질문

RQ1보상과 전이가 시간에 따라 변화하는 비정상적인 MDP 환경에서 낙관적 탐색을 효과적으로 확장할 수 있는가?
RQ2비정상적인 밴디트나 조각별 정상적인 MDP 기법이 종속성(엔도세니티)이 있는 전체 RL 환경에서는 왜 실패하는가?
RQ3변화 예산에 대한 사전 지식이 없이도 비정상적인 환경에서 낙관주의를 유지하기 위해 신뢰도 간격을 어떻게 넓힐 수 있는가?
RQ4알려지지 않은 비정상성에 적응하면서도 하위선형 동적 복귀율을 유지할 수 있는 파rameter-free 알고리즘을 설계할 수 있는가?
RQ5비정상적인 MDP에서 동적 복귀율을 최소화하기 위해 윈도우 길이와 신뢰도 확장 사이의 최적의 트레이드오프는 무엇인가?

주요 결과

변화 예산이 알려진 경우, SWUCRL2-CW 알고리즘은 동적 복귀율 상한선 $\tilde{O}\left(\frac{B_p W}{\eta} + B_r W + D_{\text{max}}\left[B_p W + \frac{S\sqrt{A}T}{\sqrt{W}} + T\eta + \frac{SAT}{W} + \sqrt{TH}\right]\right)$ 을 달성한다.
BORL 알고리즘은 EXP3.P를 통해 윈도우 길이와 신뢰도 확장 파aram터를 적응적으로 조정함으로써 동일한 복귀율 상한선을 파rameter-free 방식으로 달성한다.
BORL의 동적 복귀율은 $\tilde{O}\left(D_{\text{max}}(B_r + B_p + 1)^{1/4} S^{2/3} A^{1/2} T^{3/4}\right)$ 로 상한선이 설정되며, 로그 인자 외에는 최적의 속도를 달성한다.
신뢰도 확장 기법은 변화가 발생하는 비정상적인 MDP에서 낙관주의를 유지하는 데 필수적이다. 표준 낙관주의 기법은 환경의 변화로 인해 실패하기 때문이다.
분석 결과, 비정상적인 밴디트나 조각별 정상적인 MDP 기법을 단순히 적응시키는 것은 전체 RL 환경에서 나쁜 복귀율 상한선을 초래한다.
이론적 프레임워크는 제안된 방법이 시간 $T$, 상태 공간 $S$, 행동 공간 $A$, 그리고 변화 예산 $B_r, B_p$ 에 대해 거의 최적의 복귀율 스케일링을 달성함을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.