[논문 리뷰] Two Time-scale Off-Policy TD Learning: Non-asymptotic Analysis over Markovian Samples
이 논문은 비점근(non-asymptotic) 수렴 분석을 두 시간 규모 TDC에 대해 최초로 제시하고, 비-i.i.d. Markovian 샘플 하에서 감소하는 스텝사이즈와 일정 스텝사이즈에 대한 수율을 도출하며, 블록 단위 감소 방식(blockwise diminishing scheme)을 제안한다.
Gradient-based temporal difference (GTD) algorithms are widely used in off-policy learning scenarios. Among them, the two time-scale TD with gradient correction (TDC) algorithm has been shown to have superior performance. In contrast to previous studies that characterized the non-asymptotic convergence rate of TDC only under identical and independently distributed (i.i.d.) data samples, we provide the first non-asymptotic convergence analysis for two time-scale TDC under a non-i.i.d.\ Markovian sample path and linear function approximation. We show that the two time-scale TDC can converge as fast as O(log t/(t^(2/3))) under diminishing stepsize, and can converge exponentially fast under constant stepsize, but at the cost of a non-vanishing error. We further propose a TDC algorithm with blockwisely diminishing stepsize, and show that it asymptotically converges with an arbitrarily small error at a blockwisely linear convergence rate. Our experiments demonstrate that such an algorithm converges as fast as TDC under constant stepsize, and still enjoys comparable accuracy as TDC under diminishing stepsize.
연구 동기 및 목표
- 선형 함수 근사를 사용한 기울기 기반 TD를 이용한 off-policy 가치 함수 평가를 동기화한다.
- 마코프 데이터와 감소하는 스텝사이즈 하에서 두 시간 스케일 TDC의 비점근 수렴 특성을 규명한다.
- 상수 스텝사이즈 동작과 그에 따른 학습/추적 오차 다이내믹스를 탐구한다.
- 임의로 작은 학습 오차를 달성하는 빠른 수렴을 얻기 위한 블록 단위 감소 스텝사이즈 스킴을 제안한다.
제안 방법
- 중요도 가중치를 사용한 off-policy 평가를 위한 MSPBE 목적함수를 형식화한다.
- 슬로우 타임스케일 θ와 빠른 타임스케일 w에 대한 투영이 포함된 두 시간 규모의 확률 근사 업데이트를 정의한다.
- 감소하는 스텝사이즈 하에서 비점근 경계(상한)를 도출하며, 비율이 O(log t / t^{2/3})까지 나타남을 보인다.
- 상수 스텝사이즈에 대한 비점근 경계 도출: θ*의 이웃으로 수렴하며, 바이어스-트래킹 오차 항이 명시적으로 포함된다.
- 블록 단위 감소 스텝사이즈(Algorithm 1)를 도입하고 블록 단위 선형 수렴을 임의의 정확도까지 보인다.
실험 결과
연구 질문
- RQ1감소하는 스텝사이즈 하에서 비-i.i.d. 마르코프 샘플을 사용하는 두 시간 규모 TDC의 비점근 수렴 속도는 무엇인가?
- RQ2상수 스텝사이즈가 두 시간 규모 TDC의 학습 및 추적 오류에 어떤 영향을 미치는가?
- RQ3블록 단위 감소 스텝사이즈 스킴이 작은 학습 오차로 빠르게 수렴할 수 있는가?
- RQ4추적 오차가 두 시간 규모 TD 학습에서 느린 타임 스케일의 학습 오차에 어떤 영향을 미치는가?
주요 결과
- 감소하는 스텝사이즈 하에서, θ_t의 수렴 속도는 최대 O((log t)/t^{2/3})로 수렴하며(σ=3ν/2=1일 때 달성).
- 상수 스텝사이즈 하에서 θ_t는 θ*의 이웃으로 지수적으로 빠르게 수렴하며, 이 이웃의 크기는 바이어스 및 추적 오차 항에 의해 결정된다.
- 추적 오차 z_t = w_t − ψ(θ_t)는 서로 다른 조건 수로 인해 θ_t와 다른 속도로 감소한다.
- 블록 단위 감소 스텝사이즈는 블록 단위 선형 수렴을 임의의 작은 학습 오차까지 달성하며, 표준 감소 스텝사이즈보다 약간 더 나은 샘플 복잡도를 가진다.
- 실험은 블록 단위 감소 스텝사이즈가 상수 스텝사이즈의 속도와 일치하고 감소 스텝사이즈와 유사한 정확도를 유지함을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.