QUICK REVIEW

[논문 리뷰] Improved and Generalized Upper Bounds on the Complexity of Policy Iteration

Bruno Scherrer|arXiv (Cornell University)|2013. 06. 03.

Reinforcement Learning in Robotics참고 문헌 17인용 수 32

한 줄 요약

이 논문은 마르코프 결정 과정(MDPs)에서 정책 반복(PI)의 수렴 복잡도에 대한 향상되고 일반화된 상계를 제시한다. Howard의 PI는 $ O\big(\frac{m}{1-\beta}\log\frac{1}{1-\beta}\big) $ 반복 내에 수렴하고, Simplex-PI는 $ O\big(\frac{nm}{1-\beta}\log\frac{1}{1-\beta}\big) $ 반복 내에 수렴하며, 일시적 및 재발 상태 성질에 대한 구조적 가정 하에 더 날카운 상계를 도출한다. 이는 강한 다항 시간 수렴성을 더 넓은 범위의 MDPs로 확장한다.

ABSTRACT

Given a Markov Decision Process (MDP) with $n$ states and a totalnumber $m$ of actions, we study the number of iterations needed byPolicy Iteration (PI) algorithms to converge to the optimal$\\gamma$-discounted policy. We consider two variations of PI: Howard'sPI that changes the actions in all states with a positive advantage,and Simplex-PI that only changes the action in the state with maximaladvantage. We show that Howard's PI terminates after at most $O\\left(\\frac{m}{1-\\gamma}\\log\\left(\\frac{1}{1-\\gamma}\ ight)\ ight)$iterations, improving by a factor $O(\\log n)$ a result by Hansen etal., while Simplex-PI terminates after at most $O\\left(\\frac{nm}{1-\\gamma}\\log\\left(\\frac{1}{1-\\gamma}\ ight)\ ight)$iterations, improving by a factor $O(\\log n)$ a result by Ye. Undersome structural properties of the MDP, we then consider bounds thatare independent of the discount factor~$\\gamma$: quantities ofinterest are bounds $\ au\\_t$ and $\ au\\_r$---uniform on all states andpolicies---respectively on the \\emph{expected time spent in transientstates} and \\emph{the inverse of the frequency of visits in recurrentstates} given that the process starts from the uniform distribution.Indeed, we show that Simplex-PI terminates after at most $\ ilde O\\left(n^3 m^2 \ au\\_t \ au\\_r \ ight)$ iterations. This extends arecent result for deterministic MDPs by Post & Ye, in which $\ au\\_t\\le 1$ and $\ au\\_r \\le n$, in particular it shows that Simplex-PI isstrongly polynomial for a much larger class of MDPs. We explain whysimilar results seem hard to derive for Howard's PI. Finally, underthe additional (restrictive) assumption that the state space ispartitioned in two sets, respectively states that are transient andrecurrent for all policies, we show that both Howard's PI andSimplex-PI terminate after at most $\ ilde O(m(n^2\ au\\_t+n\ au\\_r))$iterations.

연구 동기 및 목표

MDPs에서 정책 반복(PI) 알고리즘의 수렴에 필요한 반복 수에 대한 기존 상계를 향상하고 일반화하는 것.
정적 MDPs를 초월하여 일시적 및 재발 상태 성질을 갖는 더 넓은 범위의 MDPs로 강한 다항 시간 수렴 결과를 확장하는 것.
다른 정책 갱신 전략 하에서 두 가지 PI 변형—Howard의 PI와 Simplex-PI—의 수렴 행동을 분석하는 것.
할인 인자 $\gamma$ 에 독립적인 상계를 도출하기 위해 일시적 시간과 방문 빈도를 특징짓는 구조적 양 $\tau_t$ 및 $\tau_r$ 를 사용하는 것.

제안 방법

모든 상태에서 정의된 이득이 양수인 상태를 매 반복마다 갱신하는 Howard의 PI와, 최대 이득을 갖는 상태만 갱신하는 Simplex-PI를 분석한다.
구조적 MDP 성질을 도입하고 활용한다: 모든 정책 하에서 상태는 일시적($\mathcal{T}$) 및 재발($\mathcal{R}$) 집합으로 분할된다.
일시적 시간의 통일된 상한으로 $\tau_t$ 를 정의하고, 균일 초기화 하에서 재발 상태에서의 최소 방문 빈도의 역수로 $\tau_r$ 를 정의한다.
벨만 연산자와 값 함수의 동역학을 사용하여 정책 값 향상의 진행 상황에 대해 수축 유사 상계를 유도한다.
확률적 행렬에 대한 세자로 평균의 변종을 적용하여 값 함수 진행 상황의 향상 속도를 근사한다.
반복적 제거 분석 기법을 활용한다: $ O(n\tau_r \log(n^2\tau_r)) $ 반복마다 적어도 하나의 비최적 행동이 제거됨을 보여주며, 이는 로그형 반복 상계로 이어진다.

실험 결과

연구 질문

RQ1일시적 및 재발 상태의 구조적 가정 하에서, $ O\big(\frac{m}{1-\gamma}\log\frac{1}{1-\gamma}\big) $ 상계를 $ O(\log n) $ 요소로 더 개선할 수 있는가?
RQ2구조적 MDP 매개변수인 $\tau_t$ 와 $\tau_r$ 를 사용하여, 할인 인자 $\gamma$ 에 독립적인 Simplex-PI의 수렴을 상계로 제시할 수 있는가?
RQ3일시적 및 재발 상태의 구조를 활용하여, 정적 MDPs를 초월한 MDPs에 대해 강한 다항 시간 수렴을 확장할 수 있는가?
RQ4Howard의 PI에 비해 Simplex-PI에 비해 유사한 구조적 상계를 유도하는 것이 어려운 이유는 무엇인가?
RQ5두 집합 상태 분할(일시적 및 재발) 하에서, 두 PI 변형 모두 $ \tilde{O}(m(n^2\tau_t + n\tau_r)) $ 반복 내에 수렴할 수 있는가?

주요 결과

Howard의 PI는 최대 $ O\big(\frac{m}{1-\gamma}\log\frac{1}{1-\gamma}\big) $ 반복 내에 수렴하며, Hansen 등(2013)의 이전 상계를 $ O(\log n) $ 요소로 향상시켰다.
Simplex-PI는 최대 $ O\big(\frac{nm}{1-\gamma}\log\frac{1}{1-\gamma}\big) $ 반복 내에 수렴하며, Ye(2011)의 이전 상계를 $ O(\log n) $ 요소로 향상시켰다.
구조적 가정 하에서, Simplex-PI는 $ \tilde{O}(n^3m^2\tau_t\tau_r) $ 반복 내에 수렴하며, 이는 정적 MDPs에 대해 Post와 Ye(2013)의 결과를 훨씬 더 넓은 범위로 확장한다.
일시적 및 재발 상태로 분할된 상태 공간을 갖는 MDPs에서는, Howard의 PI와 Simplex-PI 모두 $ \tilde{O}(m(n^2\tau_t + n\tau_r)) $ 반복 내에 수렴하며, 이는 $\gamma$ 에 독립적이다.
두 집합 가정 하에서 Howard의 PI의 수렴 속도는 값 간격의 $\ell_1$-노름에서 기하급수 감소를 통해 상한이 주어지며, 수축 인자는 $ 1 - \frac{1}{n\tau_r} $ 이다.
논문은 Howard의 PI에 대해 유사한 구조적 상계를 도출하는 것이 어렵다는 것을 보여주며, 이는 여러 상태를 동시에 갱신함으로써 행동 제거 및 진행 추적 분석이 복잡해지기 때문이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.