QUICK REVIEW

[논문 리뷰] Regret Minimization for Reinforcement Learning by Evaluating the Optimal Bias Function

Zihan Zhang, Xiangyang Ji|arXiv (Cornell University)|2019. 06. 12.

Reinforcement Learning in Robotics인용 수 23

한 줄 요약

이 논문은 유한한 시간 범위 MDP에서 상태 수 $S$, 행동 수 $A$, 최적의 편향 함수 $h^*$의 스팬에 대한 알려진 상한 $H$를 가진 경우, $\tilde{O}(\sqrt{SAHT})$의 리그레트 한계를 달성하기 위해 최적의 편향 함수 $h^*$의 상태 쌍 차이를 활용하는 Optimism in the Face of Uncertainty (OFU)-기반 강화 학습 알고리즘을 제안한다. 이 방법은 이전의 OFU 기반 한계보다 $\sqrt{S}$ 요소만큼 향상되며, 로그 인자 외에는 알려진 하한 $\Omega(\sqrt{SAHT})$와 일치한다.

ABSTRACT

We present an algorithm based on the \\emph{Optimism in the Face of Uncertainty} (OFU) principle which is able to learn Reinforcement Learning (RL) modeled by Markov decision process (MDP) with finite state-action space efficiently. By evaluating the state-pair difference of the optimal bias function $h^{*}$, the proposed algorithm achieves a regret bound of $\ ilde{O}(\\sqrt{SAHT})$\\footnote{The symbol $\ ilde{O}$ means $O$ with log factors ignored. } for MDP with $S$ states and $A$ actions, in the case that an upper bound $H$ on the span of $h^{*}$, i.e., $sp(h^{*})$ is known. This result outperforms the best previous regret bounds $\ ilde{O}(S\\sqrt{AHT}) $\\citep{fruit2019improved} by a factor of $\\sqrt{S}$. Furthermore, this regret bound matches the lower bound of $\\Omega(\\sqrt{SAHT}) $\\citep{jaksch2010near} up to a logarithmic factor. As a consequence, we show that there is a near optimal regret bound of $\ ilde{O}(\\sqrt{SADT})$ for MDPs with a finite diameter $D$ compared to the lower bound of $\\Omega(\\sqrt{SADT}) $\\citep{jaksch2010near}.

연구 동기 및 목표

유한한 상태-행동 공간을 가진 MDP에 대해 향상된 리그레트 한계를 갖는 강화 학습 알고리즘을 개발하는 것.
기존 OFU 기반 알고리즘의 한계를 해결하기 위해, MDP에 대한 느슨한 신뢰 집합으로 인해 하위 최적의 리그레트 스케일링이 발생하는 문제를 다루는 것.
최적의 편향 함수 $h^*$의 구조를 활용하여 신뢰 집합을 강화하고 리그레트 성능을 향상시키는 것.
정보 이론적 하한 $\Omega(\sqrt{SAHT})$와 로그 인자 외에는 일치하는 리그레트 한계를 달성하는 것.
유한 직경 $D$를 가진 MDP에 대해 리그레트 한계 $\tilde{O}(\sqrt{SADT})$가 거의 최적임을 보여주는 것.

제안 방법

알고리즘은 최적의 편향 함수 $h^*$에 대한 신뢰 집합 $\mathcal{H}_k$를 상태 쌍의 차이를 기반으로 구성하여 더 좁은 MDP 신뢰 집합을 가능하게 한다.
기존 방법이 忽略하는 시간적 구조를 활용하기 위해, 궤적 내 상태-행동 쌍의 순서를 사용하여 $\mathcal{H}_k$를 계산한다.
집중 부등식을 기반으로, 진짜 $P$가 높은 확률로 $\mathcal{P}$ 내에 포함되는 전이 모델의 신뢰 집합 $\mathcal{P}$를 유지한다.
편향 함수의 스팬을 사용하여, 낙관적인 MDP의 가치 함수와 진짜 MDP의 가치 함수 간의 차이를 분석함으로써 리그레트를 한정한다.
신뢰 집합 내에서 가장 좋은 MDP에 대해 최적의 정책을 선택하는 OFU 원칙을 적용하여 탐색을 보장하면서 리그레트를 최소화한다.
이론적 분석은 귀납법과 농도 부등식(예: 보조정리 17)을 사용하여 전이 모델 추정치에 대한 고확률적 신뢰를 확보한다.

실험 결과

연구 질문

RQ1최적의 편향 함수 $h^*$의 구조를 활용함으로써 OFU 기반 RL 알고리즘의 리그레트 한계를 향상시킬 수 있는가?
RQ2최적의 편향 함수 $h^*$의 상태 쌍 차이를 평가하면 MDP에 대한 더 좁은 신뢰 집합과 더 나은 리그레트 한계를 달성할 수 있는가?
RQ3이전의 OFU 방법이 $\tilde{O}(S\sqrt{AHT})$를 달성하는 것과 비교해 $\sqrt{S}$ 요소만큼 리그레트 한계를 줄일 수 있는가?
RQ4결과적으로 도출된 리그레트 한계 $\tilde{O}(\sqrt{SAHT})$는 알려진 하한 $\Omega(\sqrt{SAHT})$와 일치하는가, 로그 인자 외에는 거의 최적인가?
RQ5유사한 접근 방식이 유한 직경 $D$를 가진 MDP에 대해 거의 최적의 리그레트 한계 $\tilde{O}(\sqrt{SADT})$를 도출할 수 있는가?

주요 결과

알고리즘은 $\mathrm{sp}(h^*)$에 대한 상한 $H$가 알려져 있을 경우, 리그레트 한계 $\tilde{O}(\sqrt{SAHT})$를 달성한다.
이 리그레트 한계는 이전의 최고의 OFU 기반 한계인 $\tilde{O}(S\sqrt{AHT})$보다 $\sqrt{S}$ 요소만큼 향상된다.
리그레트 한계 $\tilde{O}(\sqrt{SAHT})$는 알려진 하한 $\Omega(\sqrt{SAHT})$와 로그 인자 외에는 일치하므로, 거의 최적임을 시사한다.
결론적으로, 이 알고리즘은 유한 직경 $D$를 가진 MDP에 대해 리그레트 한계 $\tilde{O}(\sqrt{SADT})$를 달성하며, 이는 하한 $\Omega(\sqrt{SADT})$와 일치한다.
이 방법의 핵심 혁신은 상태-행동 쌍의 시간적 순서를 활용하여 $h^*$에 대한 신뢰 집합을 정교화함으로써 이전 방법보다 더 좁은 한계를 가능하게 한다.
분석 결과, 유도된 농도 부등식 하에서 전이 모델 $P$에 대한 신뢰 집합은 진짜 $P$를 높은 확률로 포함한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.