Skip to main content
QUICK REVIEW

[논문 리뷰] Regret Minimization for Reinforcement Learning by Evaluating the Optimal Bias Function

Zihan Zhang, Xiangyang Ji|arXiv (Cornell University)|2019. 06. 12.
Reinforcement Learning in Robotics인용 수 23
한 줄 요약

이 논문은 유한한 시간 범위 MDP에서 상태 수 $S$, 행동 수 $A$, 최적의 편향 함수 $h^*$의 스팬에 대한 알려진 상한 $H$를 가진 경우, $\tilde{O}(\sqrt{SAHT})$의 리그레트 한계를 달성하기 위해 최적의 편향 함수 $h^*$의 상태 쌍 차이를 활용하는 Optimism in the Face of Uncertainty (OFU)-기반 강화 학습 알고리즘을 제안한다. 이 방법은 이전의 OFU 기반 한계보다 $\sqrt{S}$ 요소만큼 향상되며, 로그 인자 외에는 알려진 하한 $\Omega(\sqrt{SAHT})$와 일치한다.

ABSTRACT

We present an algorithm based on the \\emph{Optimism in the Face of Uncertainty} (OFU) principle which is able to learn Reinforcement Learning (RL) modeled by Markov decision process (MDP) with finite state-action space efficiently. By evaluating the state-pair difference of the optimal bias function $h^{*}$, the proposed algorithm achieves a regret bound of $\ ilde{O}(\\sqrt{SAHT})$\\footnote{The symbol $\ ilde{O}$ means $O$ with log factors ignored. } for MDP with $S$ states and $A$ actions, in the case that an upper bound $H$ on the span of $h^{*}$, i.e., $sp(h^{*})$ is known. This result outperforms the best previous regret bounds $\ ilde{O}(S\\sqrt{AHT}) $\\citep{fruit2019improved} by a factor of $\\sqrt{S}$. Furthermore, this regret bound matches the lower bound of $\\Omega(\\sqrt{SAHT}) $\\citep{jaksch2010near} up to a logarithmic factor. As a consequence, we show that there is a near optimal regret bound of $\ ilde{O}(\\sqrt{SADT})$ for MDPs with a finite diameter $D$ compared to the lower bound of $\\Omega(\\sqrt{SADT}) $\\citep{jaksch2010near}.

연구 동기 및 목표

  • 유한한 상태-행동 공간을 가진 MDP에 대해 향상된 리그레트 한계를 갖는 강화 학습 알고리즘을 개발하는 것.
  • 기존 OFU 기반 알고리즘의 한계를 해결하기 위해, MDP에 대한 느슨한 신뢰 집합으로 인해 하위 최적의 리그레트 스케일링이 발생하는 문제를 다루는 것.
  • 최적의 편향 함수 $h^*$의 구조를 활용하여 신뢰 집합을 강화하고 리그레트 성능을 향상시키는 것.
  • 정보 이론적 하한 $\Omega(\sqrt{SAHT})$와 로그 인자 외에는 일치하는 리그레트 한계를 달성하는 것.
  • 유한 직경 $D$를 가진 MDP에 대해 리그레트 한계 $\tilde{O}(\sqrt{SADT})$가 거의 최적임을 보여주는 것.

제안 방법

  • 알고리즘은 최적의 편향 함수 $h^*$에 대한 신뢰 집합 $\mathcal{H}_k$를 상태 쌍의 차이를 기반으로 구성하여 더 좁은 MDP 신뢰 집합을 가능하게 한다.
  • 기존 방법이 忽略하는 시간적 구조를 활용하기 위해, 궤적 내 상태-행동 쌍의 순서를 사용하여 $\mathcal{H}_k$를 계산한다.
  • 집중 부등식을 기반으로, 진짜 $P$가 높은 확률로 $\mathcal{P}$ 내에 포함되는 전이 모델의 신뢰 집합 $\mathcal{P}$를 유지한다.
  • 편향 함수의 스팬을 사용하여, 낙관적인 MDP의 가치 함수와 진짜 MDP의 가치 함수 간의 차이를 분석함으로써 리그레트를 한정한다.
  • 신뢰 집합 내에서 가장 좋은 MDP에 대해 최적의 정책을 선택하는 OFU 원칙을 적용하여 탐색을 보장하면서 리그레트를 최소화한다.
  • 이론적 분석은 귀납법과 농도 부등식(예: 보조정리 17)을 사용하여 전이 모델 추정치에 대한 고확률적 신뢰를 확보한다.

실험 결과

연구 질문

  • RQ1최적의 편향 함수 $h^*$의 구조를 활용함으로써 OFU 기반 RL 알고리즘의 리그레트 한계를 향상시킬 수 있는가?
  • RQ2최적의 편향 함수 $h^*$의 상태 쌍 차이를 평가하면 MDP에 대한 더 좁은 신뢰 집합과 더 나은 리그레트 한계를 달성할 수 있는가?
  • RQ3이전의 OFU 방법이 $\tilde{O}(S\sqrt{AHT})$를 달성하는 것과 비교해 $\sqrt{S}$ 요소만큼 리그레트 한계를 줄일 수 있는가?
  • RQ4결과적으로 도출된 리그레트 한계 $\tilde{O}(\sqrt{SAHT})$는 알려진 하한 $\Omega(\sqrt{SAHT})$와 일치하는가, 로그 인자 외에는 거의 최적인가?
  • RQ5유사한 접근 방식이 유한 직경 $D$를 가진 MDP에 대해 거의 최적의 리그레트 한계 $\tilde{O}(\sqrt{SADT})$를 도출할 수 있는가?

주요 결과

  • 알고리즘은 $\mathrm{sp}(h^*)$에 대한 상한 $H$가 알려져 있을 경우, 리그레트 한계 $\tilde{O}(\sqrt{SAHT})$를 달성한다.
  • 이 리그레트 한계는 이전의 최고의 OFU 기반 한계인 $\tilde{O}(S\sqrt{AHT})$보다 $\sqrt{S}$ 요소만큼 향상된다.
  • 리그레트 한계 $\tilde{O}(\sqrt{SAHT})$는 알려진 하한 $\Omega(\sqrt{SAHT})$와 로그 인자 외에는 일치하므로, 거의 최적임을 시사한다.
  • 결론적으로, 이 알고리즘은 유한 직경 $D$를 가진 MDP에 대해 리그레트 한계 $\tilde{O}(\sqrt{SADT})$를 달성하며, 이는 하한 $\Omega(\sqrt{SADT})$와 일치한다.
  • 이 방법의 핵심 혁신은 상태-행동 쌍의 시간적 순서를 활용하여 $h^*$에 대한 신뢰 집합을 정교화함으로써 이전 방법보다 더 좁은 한계를 가능하게 한다.
  • 분석 결과, 유도된 농도 부등식 하에서 전이 모델 $P$에 대한 신뢰 집합은 진짜 $P$를 높은 확률로 포함한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.