QUICK REVIEW

[논문 리뷰] Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes

Chen-Yu Wei, Mehdi Jafarnia-Jahromi|arXiv (Cornell University)|2019. 10. 15.

Advanced Bandit Algorithms Research참고 문헌 38인용 수 19

한 줄 요약

이 논문은 무한 시간 할인 평균 보상 마르코프 결정 과정(MDPs)을 위한 두 가지 새로운 모델 프리 강화 학습 알고리즘을 제안한다. 첫 번째로, 최적화된 Q-학습은 Q-값 추정을 안정화하기 위해 할인 인자를 도입함으로써 약한 연결성 있는 MDPs에서 $Ó(T^{2/3})$의 손실을 달성한다. 두 번째로, MDP-OOMD는 적응형 밴딧 기법을 사용하여 더 강한 에르고딕 가정 하에서 손실을 $Ó(√{T})$로 향상시켜 이전의 모델 프리 방법들을 능가한다.

ABSTRACT

Model-free reinforcement learning is known to be memory and computation efficient and more amendable to large scale problems. In this paper, two model-free algorithms are introduced for learning infinite-horizon average-reward Markov Decision Processes (MDPs). The first algorithm reduces the problem to the discounted-reward version and achieves $\mathcal{O}(T^{2/3})$ regret after $T$ steps, under the minimal assumption of weakly communicating MDPs. To our knowledge, this is the first model-free algorithm for general MDPs in this setting. The second algorithm makes use of recent advances in adaptive algorithms for adversarial multi-armed bandits and improves the regret to $\mathcal{O}(\sqrt{T})$, albeit with a stronger ergodic assumption. This result significantly improves over the $\mathcal{O}(T^{3/4})$ regret achieved by the only existing model-free algorithm by Abbasi-Yadkori et al. (2019a) for ergodic MDPs in the infinite-horizon average-reward setting.

연구 동기 및 목표

무한 시간 할인 평균 보상 MDPs에서 기존 방법들이 낮은 손실 경계를 확보하지 못하는 점을 메우기 위해.
모델 추정을 피함으로써 메모리 및 계산 효율성을 확보하고 대규모 문제에의 확장성을 확보하기 위한 알고리즘 설계를 위해.
모델 기반 가정에 의존하지 않고도 약한 연결성 있는 MDPs와 에르고딕 MDPs에서 비선형 손실을 달성하기 위해.
평균 보상 설정에서 Q-값 안정성과 무한한 증가 문제에 도전하기 위해.
할인 또는 유한 시간 설정을 초월한 일반 MDPs로 모델 프리 방법의 적용 범위를 확장하기 위해.

제안 방법

시간에 따라 변화하는 할인 인자를 사용하여 평균 보상 MDP를 할인된 MDP로 재구성함으로써 Q-값 학습의 안정성을 확보하는 최적화된 Q-학습을 도입한다.
Q-값에 대한 상한 신뢰도를 활용한 낙관적 탐색을 통해 탐색과 이용의 균형을 이룬다.
손실 증가를 통제하기 위해 평균 보상 설정에 적응된 UCB 알고리즘의 변종을 사용한다.
비에르고딕 환경에서 수렴을 향상시키기 위해 적응형 학습률 스케줄링 및 분산 감소 기법을 적용한다.
MDP-OOMD의 경우, 최근의 적응형 손실 최소화 기반의 악성 다중 손실 밴딧 기법을 활용하여 더 탴튼한 경계를 달성한다.
혼합 시간 기반 탐색 스케줄을 사용하는 탐색 및 이용 단계로 구성된 이중 단계 학습 과정을 구현한다.

실험 결과

연구 질문

RQ1모델 프리 강화 학습이 최소한의 가정 하에서 무한 시간 할인 평균 보상 MDPs에서 비선형 손실을 달성할 수 있는가?
RQ2값이 무한히 증가할 수 있는 평균 보상 MDPs에서 Q-값 추정을 어떻게 안정화할 수 있는가?
RQ3적응형 밴딧 기법은 이전의 모델 프리 방법에 비해 에르고딕 MDPs에서 손실 경계를 향상시킬 수 있는가?
RQ4모델 기반 추정 없이도 약한 연결성 있는 MDPs에서 $\widetilde{\mathcal{O}}(T^{2/3})$의 손실을 달성할 수 있는가?
RQ5메모리 효율성 측면에서 모델 프리 알고리즘의 성능은 모델 기반 기준선과 비교해 어떻게 되는가?

주요 결과

최적화된 Q-학습은 약한 연결성 있는 MDPs에서 $\widetilde{\mathcal{O}}(T^{2/3})$의 손실을 달성하였으며, 이는 이 설정에서 모델 프리 알고리즘으로서는 최초의 결과이다.
MDP-OOMD는 에르고딕 가정 하에서 $\widetilde{\mathcal{O}}(\sqrt{T})$의 손실을 달성하였으며, Abbasi-Yadkori 등(2019a)의 $\mathcal{O}(T^{3/4})$ 경계를 초월한다.
제안된 알고리즘은 $\epsilon$-그리디 탐색을 사용하는 표준 Q-학습보다 우수한 성능을 보였으며, 실험에서 선형 손실을 겪는다.
혼합 성질이 열악한 환경, 예를 들어 JumpRiverSwim에서는 최적화된 Q-학습이 MDP-OOMD와 Politex를 모두 능가함에도 불구하고 이론적 경계는 열 劣하다.
실험 결과 양쪽 알고리즘이 비선형 손실을 달성함으로써 실제 MDPs에서 이론적 보장을 검증하였다.
알고리즘은 메모리 효율적이며 확장 가능하여 대규모 평균 보상 설정에서 모델 프리 강화 학습의 실현 가능성을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.