Skip to main content
QUICK REVIEW

[논문 리뷰] Finite Time Analysis of Linear Two-timescale Stochastic Approximation with Markovian Noise

Maxim Kaledin, Éric Moulines|arXiv (Cornell University)|2020. 02. 04.
Probabilistic and Robust Engineering Design참고 문헌 25인용 수 26
한 줄 요약

이 논문은 마르코프 노이즈 하에서 선형 이중시계스케일 확률적 근사의 유한시간 분석을 제공하며, i.i.d. 노이즈 경우와 동일한 수렴 속도를 보임을 보여주며, 오직 마르코프 체인의 혼합 시간에 의해 영향을 받는 상수들만 변화함을 밝힘. 최적의 스텝 사이즈 스케줄을 사용할 경우, 기대 오차는 일시적인 동안 $o(1/k^c)$로 감소하고, 점차적으로 ${\cal O}(1/k)$로 수렴하며, 이에 대응하는 $Ω(1/k)$ 하한선이 존재함.

ABSTRACT

Linear two-timescale stochastic approximation (SA) scheme is an important class of algorithms which has become popular in reinforcement learning (RL), particularly for the policy evaluation problem. Recently, a number of works have been devoted to establishing the finite time analysis of the scheme, especially under the Markovian (non-i.i.d.) noise settings that are ubiquitous in practice. In this paper, we provide a finite-time analysis for linear two timescale SA. Our bounds show that there is no discrepancy in the convergence rate between Markovian and martingale noise, only the constants are affected by the mixing time of the Markov chain. With an appropriate step size schedule, the transient term in the expected error bound is $o(1/k^c)$ and the steady-state term is ${\cal O}(1/k)$, where $c>1$ and $k$ is the iteration number. Furthermore, we present an asymptotic expansion of the expected error with a matching lower bound of $Ω(1/k)$. A simple numerical experiment is presented to support our theory.

연구 동기 및 목표

  • 마르코프 노이즈 하에서 선형 이중시계스케일 확률적 근사에 대한 유한시간 오차 경계를 수립함.
  • 노이즈가 종속적(Markovian)일 때와 독립적(i.i.d.)일 때의 수렴 속도 이론적 이해 격차를 메움.
  • 상한과 하한이 일치하는 정밀한 오차 경계를 유도하여 $Δ(1/k)$ 안정 상태 속도의 최적성 확인.
  • 예측된 오차 감소 경향을 보여주는 수치 실험을 통해 이론적 결과를 검증함.

제안 방법

  • 이중시계스케일 방법의 선형 시스템 표현을 활용하여 오차를 일시적 및 안정 상태 성분으로 분해하는 새로운 방법을 도입함.
  • 비 i.i.d. 성격을 반영하기 위해 시간에 따라 변하는 리아푸노프 함수를 구성하여 오차의 변화 추적.
  • 기초가 되는 마르코프 체인의 혼합 시간 성질을 통합하여 종속성의 영향을 수렴 상수에 제한함.
  • 기대 오차의 점근적 전개를 유도하여 $Δ(1/k)$ 안정 상태 항의 정밀한 특성화를 가능하게 함.
  • 상한선과 일치하는 구성 방법을 통해 $Ω(1/k)$ 하한선을 확립하여 이 속도가 최적임을 증명함.
  • 일시적 오차 감소를 최소화하기 위해 최적의 스텝 사이즈 스케줄을 설계하여 임의의 $c>1$에 대해 $o(1/k^c)$를 달성함.

실험 결과

연구 질문

  • RQ1마르코프 노이즈 하에서 선형 이중시계스케일 확률적 근사의 수렴 속도가 i.i.d. 노이즈 경우에 비해 떨어지는가?
  • RQ2노이즈 과정이 마르코프 체인이면 이중시계스케일 방법에 대해 날카로운 유한시간 오차 경계를 도출할 수 있는가?
  • RQ3기대 오차의 정확한 점근적 행동은 무엇이며, $Δ(1/k)$ 속도는 최적인가?
  • RQ4마르코프 체인의 혼합 시간은 오차 경계의 수렴 상수에 어떤 영향을 미치는가?
  • RQ5일시적 오차 감소를 가속화하면서도 $Δ(1/k)$ 안정 상태 속도를 유지할 수 있는 최적의 스텝 사이즈 스케줄을 설계할 수 있는가?

주요 결과

  • 최적의 스텝 사이즈 스케줄 하에서 유한시간 오차 경계는 일시적 항이 임의의 $c>1$에 대해 $o(1/k^c)$로 감소함.
  • 안정 상태 오차 항은 $Δ(1/k)$이며, i.i.d. 노이즈 하에서 알려진 최고 수준의 속도와 일치함.
  • $Δ(1/k)$ 속도는 최적임이 입증되었으며, 상한선과 일치하는 $Ω(1/k)$ 하한선이 확립됨.
  • 마르코프 체인의 혼합 시간은 오차 경계의 상수들에만 영향을 미치며, 수렴 속도에는 영향을 주지 않음.
  • 이론적 오차 감소 경향은 수치 실험을 통해 검증되었으며, 예측된 점근적 행동과 일치함.
  • 분석 결과 마르코프 노이즈는 i.i.d. 노이즈 경우에 비해 수렴 속도를 저하시키지 않으며, 오직 혼합 시간에 의해 상수들이 악화됨을 확인함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.