Skip to main content
QUICK REVIEW

[논문 리뷰] Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes

Chen-Yu Wei, Mehdi Jafarnia-Jahromi|arXiv (Cornell University)|2019. 10. 15.
Advanced Bandit Algorithms Research참고 문헌 38인용 수 19
한 줄 요약

이 논문은 무한 시간 할인 평균 보상 마르코프 결정 과정(MDPs)을 위한 두 가지 새로운 모델 프리 강화 학습 알고리즘을 제안한다. 첫 번째로, 최적화된 Q-학습은 Q-값 추정을 안정화하기 위해 할인 인자를 도입함으로써 약한 연결성 있는 MDPs에서 $Ó(T^{2/3})$의 손실을 달성한다. 두 번째로, MDP-OOMD는 적응형 밴딧 기법을 사용하여 더 강한 에르고딕 가정 하에서 손실을 $Ó(√{T})$로 향상시켜 이전의 모델 프리 방법들을 능가한다.

ABSTRACT

Model-free reinforcement learning is known to be memory and computation efficient and more amendable to large scale problems. In this paper, two model-free algorithms are introduced for learning infinite-horizon average-reward Markov Decision Processes (MDPs). The first algorithm reduces the problem to the discounted-reward version and achieves $\mathcal{O}(T^{2/3})$ regret after $T$ steps, under the minimal assumption of weakly communicating MDPs. To our knowledge, this is the first model-free algorithm for general MDPs in this setting. The second algorithm makes use of recent advances in adaptive algorithms for adversarial multi-armed bandits and improves the regret to $\mathcal{O}(\sqrt{T})$, albeit with a stronger ergodic assumption. This result significantly improves over the $\mathcal{O}(T^{3/4})$ regret achieved by the only existing model-free algorithm by Abbasi-Yadkori et al. (2019a) for ergodic MDPs in the infinite-horizon average-reward setting.

연구 동기 및 목표

  • 무한 시간 할인 평균 보상 MDPs에서 기존 방법들이 낮은 손실 경계를 확보하지 못하는 점을 메우기 위해.
  • 모델 추정을 피함으로써 메모리 및 계산 효율성을 확보하고 대규모 문제에의 확장성을 확보하기 위한 알고리즘 설계를 위해.
  • 모델 기반 가정에 의존하지 않고도 약한 연결성 있는 MDPs와 에르고딕 MDPs에서 비선형 손실을 달성하기 위해.
  • 평균 보상 설정에서 Q-값 안정성과 무한한 증가 문제에 도전하기 위해.
  • 할인 또는 유한 시간 설정을 초월한 일반 MDPs로 모델 프리 방법의 적용 범위를 확장하기 위해.

제안 방법

  • 시간에 따라 변화하는 할인 인자를 사용하여 평균 보상 MDP를 할인된 MDP로 재구성함으로써 Q-값 학습의 안정성을 확보하는 최적화된 Q-학습을 도입한다.
  • Q-값에 대한 상한 신뢰도를 활용한 낙관적 탐색을 통해 탐색과 이용의 균형을 이룬다.
  • 손실 증가를 통제하기 위해 평균 보상 설정에 적응된 UCB 알고리즘의 변종을 사용한다.
  • 비에르고딕 환경에서 수렴을 향상시키기 위해 적응형 학습률 스케줄링 및 분산 감소 기법을 적용한다.
  • MDP-OOMD의 경우, 최근의 적응형 손실 최소화 기반의 악성 다중 손실 밴딧 기법을 활용하여 더 탴튼한 경계를 달성한다.
  • 혼합 시간 기반 탐색 스케줄을 사용하는 탐색 및 이용 단계로 구성된 이중 단계 학습 과정을 구현한다.

실험 결과

연구 질문

  • RQ1모델 프리 강화 학습이 최소한의 가정 하에서 무한 시간 할인 평균 보상 MDPs에서 비선형 손실을 달성할 수 있는가?
  • RQ2값이 무한히 증가할 수 있는 평균 보상 MDPs에서 Q-값 추정을 어떻게 안정화할 수 있는가?
  • RQ3적응형 밴딧 기법은 이전의 모델 프리 방법에 비해 에르고딕 MDPs에서 손실 경계를 향상시킬 수 있는가?
  • RQ4모델 기반 추정 없이도 약한 연결성 있는 MDPs에서 $\widetilde{\mathcal{O}}(T^{2/3})$의 손실을 달성할 수 있는가?
  • RQ5메모리 효율성 측면에서 모델 프리 알고리즘의 성능은 모델 기반 기준선과 비교해 어떻게 되는가?

주요 결과

  • 최적화된 Q-학습은 약한 연결성 있는 MDPs에서 $\widetilde{\mathcal{O}}(T^{2/3})$의 손실을 달성하였으며, 이는 이 설정에서 모델 프리 알고리즘으로서는 최초의 결과이다.
  • MDP-OOMD는 에르고딕 가정 하에서 $\widetilde{\mathcal{O}}(\sqrt{T})$의 손실을 달성하였으며, Abbasi-Yadkori 등(2019a)의 $\mathcal{O}(T^{3/4})$ 경계를 초월한다.
  • 제안된 알고리즘은 $\epsilon$-그리디 탐색을 사용하는 표준 Q-학습보다 우수한 성능을 보였으며, 실험에서 선형 손실을 겪는다.
  • 혼합 성질이 열악한 환경, 예를 들어 JumpRiverSwim에서는 최적화된 Q-학습이 MDP-OOMD와 Politex를 모두 능가함에도 불구하고 이론적 경계는 열 劣하다.
  • 실험 결과 양쪽 알고리즘이 비선형 손실을 달성함으로써 실제 MDPs에서 이론적 보장을 검증하였다.
  • 알고리즘은 메모리 효율적이며 확장 가능하여 대규모 평균 보상 설정에서 모델 프리 강화 학습의 실현 가능성을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.