QUICK REVIEW

[논문 리뷰] Near-Optimal Time and Sample Complexities for Solving Discounted Markov Decision Process with a Generative Model

Aaron Sidford, Mengdi Wang|arXiv (Cornell University)|2018. 06. 05.

Machine Learning and Algorithms참고 문헌 21인용 수 30

한 줄 요약

이 논문은 생성 모델을 사용하여 할인 마코프 결정 과정(DMDP)에서 $\epsilon$-최적 정책을 계산하기 위해 분산 감소 Q-값 반복 알고리즘을 제안한다. 이 알고리즘은 시간 복잡도와 샘플 복잡도 측면에서 거의 최적의 성능을 달성하며, 샘플 복잡도 하한선에 대해 로그 인자 외에는 일치한다. 런타임 복잡도는 샘플 복잡도와 상수 인자 외에는 동일하며, 이는 샘플 및 런타임 최적성의 조건인 $1/\sqrt{(1-\gamma)|\mathcal{S}|} \leq \epsilon \leq 1$ 범위에서 성립한다.

ABSTRACT

In this paper we consider the problem of computing an $ε$-optimal policy of a discounted Markov Decision Process (DMDP) provided we can only access its transition function through a generative sampling model that given any state-action pair samples from the transition function in $O(1)$ time. Given such a DMDP with states $S$, actions $A$, discount factor $γ\in(0,1)$, and rewards in range $[0, 1]$ we provide an algorithm which computes an $ε$-optimal policy with probability $1 - δ$ where \emph{both} the time spent and number of sample taken are upper bounded by \[ O\left[\frac{|S||A|}{(1-γ)^3 ε^2} \log \left(\frac{|S||A|}{(1-γ)δε} ight) \log\left(\frac{1}{(1-γ)ε} ight) ight] ~. \] For fixed values of $ε$, this improves upon the previous best known bounds by a factor of $(1 - γ)^{-1}$ and matches the sample complexity lower bounds proved in Azar et al. (2013) up to logarithmic factors. We also extend our method to computing $ε$-optimal policies for finite-horizon MDP with a generative model and provide a nearly matching sample complexity lower bound.

연구 동기 및 목표

생성 모델이 있는 DMDP에서 $\epsilon$-최적 정책을 동시에 샘플 및 런타임 최적화할 수 없는 기존 알고리즘의 격차를 해결한다.
이 문제에 대해 알려진 최상의 상한과 기존 샘플 복잡도 하한선 사이의 이론적 격차를 메운다.
관심 있는 범위에서 다항로그 인자 외에 샘플 및 런타임 복잡도를 최적화하는 알고리즘을 개발한다.
유한 수명 MDP로의 방법 확장을 통해 거의 일치하는 샘플 복잡도 하한선을 제공한다.
이전 방법이 $(1-\gamma)^{-5}\epsilon^{-2}$의 샘플 수가 필요로 하는 문제를 해결하고 $(1-\gamma)^{-1}$에 대한 의존도를 향상시켜 오랫동안 존재하던 격차를 메운다.

제안 방법

논문은 분산 감소 기법을 활용하여 수렴성과 안정성을 향상시키기 위해 랜덤화된 분산 감소 Q-값 반복(vQVI) 알고리즘을 제안한다.
Q-값 갱신 단계에 분산 감소를 적용하여 기울기 추정치의 노이즈를 줄여, 더 적은 샘플로 더 빠른 수렴을 가능하게 한다.
각 상태-행동 쌍은 $O(1)$ 시간에 전이 분포에 접근할 수 있는 생성 모델을 통해 샘플링된다.
알고리즘은 희소 갱신을 사용하여 런타임 복잡도를 낮추며, 총 시간이 사용된 샘플 수에 비례하도록 보장한다.
핵심 이론적 구성 요소로는 높은 확률로 추정된 값이 진짜 값에서 벗어나지 않도록 제한하기 위해 농도 부등식과 마틴게일 추론을 사용한다.
할인 요소 변환을 통해 유한 수명 문제와 무한 수명 문제 사이의 대응 관계를 구축함으로써 방법을 유한 수명 MDP로 확장한다.

실험 결과

연구 질문

RQ1생성 모델이 있는 할인 MDP에서 $\epsilon$-최적 정책을 계산하기 위한 최적의 샘플 복잡도는 무엇인가?
RQ2샘플 복잡도와 런타임 복잡도를 동시에 최적화하는 알고리즘을 설계할 수 있는가?
RQ3할인 요소 $(1-\gamma)^{-1}$ 에 대한 의존도가 기존 알고리즘의 샘플 및 런타임 복잡도에 어떻게 영향을 미치는가?
RQ4$\epsilon$-최적 정책을 계산하기 위해 필요한 샘플 수에 대한 가장 날카로운 하한선은 무엇인가?
RQ5제안된 방법은 일치하는 샘플 복잡도 하한선을 갖는 유한 수명 MDP로 확장될 수 있는가?

주요 결과

제안된 vQVI 알고리즘은 $1-\delta$ 확률로 $O\left[\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^3\epsilon^2}\log\left(\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)\delta\epsilon}\right)\log\left(\frac{1}{(1-\gamma)\epsilon}\right)\right]$개의 샘플을 사용하여 $\epsilon$-최적 정책을 계산한다.
각 샘플 전이에 $O(1)$ 시간이 소요된다고 가정할 경우, 알고리즘의 런타임 복잡도는 샘플 복잡도와 상수 인자 외에는 동일하다.
알고리즘의 샘플 복잡도는 [AMK13]에서 알려진 샘플 복잡도 하한선과 로그 인자 외에는 일치한다.
유한 수명 MDP의 경우, 메서드는 $\Omega(H^{-3}\epsilon^{-2}|\mathcal{S}||\mathcal{A}|/\log\epsilon^{-1})$의 거의 일치하는 샘플 복잡도 하한선을 달성한다.
이전 연구에 비해 $(1-\gamma)^{-1}$에 대한 의존도를 $(1-\gamma)^{-1}$의 요소로 줄여, 문헌에서 오랫동안 존재하던 격차를 메운다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.