QUICK REVIEW

[논문 리뷰] On Convergence of some Gradient-based Temporal-Differences Algorithms for Off-Policy Learning

Huizhen Yu|arXiv (Cornell University)|2017. 12. 27.

Reinforcement Learning in Robotics참고 문헌 25인용 수 25

한 줄 요약

이 논문은 선형 함수 근사와 함께 기울기 기반 오프-폴리시 시간차분(TD) 알고리즘, 특히 GTD, 미러-강하 변형, 단일 시간 척도 최소화 문제 공식화를 포함한 수렴 보증을 수립한다. 역사에 의존하는 λ-스키마를 통해 유한한 유인성 추적을 통해 거의 확실한 수렴을 증명하는 동안, 표준 점차 감소하는 스텝사이즈 하에서 유한하지 않은 추적을 가질 경우의 수렴 문제를 부각시킨다.

ABSTRACT

We consider off-policy temporal-difference (TD) learning methods for policy evaluation in Markov decision processes with finite spaces and discounted reward criteria, and we present a collection of convergence results for several gradient-based TD algorithms with linear function approximation. The algorithms we analyze include: (i) two basic forms of two-time-scale gradient-based TD algorithms, which we call GTD and which minimize the mean squared projected Bellman error using stochastic gradient-descent; (ii) their "robustified" biased variants; (iii) their mirror-descent versions which combine the mirror-descent idea with TD learning; and (iv) a single-time-scale version of GTD that solves minimax problems formulated for approximate policy evaluation. We derive convergence results for three types of stepsizes: constant stepsize, slowly diminishing stepsize, as well as the standard type of diminishing stepsize with a square-summable condition. For the first two types of stepsizes, we apply the weak convergence method from stochastic approximation theory to characterize the asymptotic behavior of the algorithms, and for the standard type of stepsize, we analyze the algorithmic behavior with respect to a stronger mode of convergence, almost sure convergence. Our convergence results are for the aforementioned TD algorithms with three general ways of setting their $λ$-parameters: (i) state-dependent $λ$; (ii) a recently proposed scheme of using history-dependent $λ$ to keep the eligibility traces of the algorithms bounded while allowing for relatively large values of $λ$; and (iii) a composite scheme of setting the $λ$-parameters that combines the preceding two schemes and allows a broader class of generalized Bellman operators to be used for approximate policy evaluation with TD methods.

연구 동기 및 목표

유한 상태 MDP에서 선형 함수 근사와 함께 기울기 기반 오프-폴리시 TD 알고리즘에 대한 엄밀한 수렴 결과를 수립하기 위해.
상태에 의존하는, 역사에 의존하는, 복합적 스킴을 포함한 다양한 λ-파rameter 설정이 알고리즘 수렴에 미치는 영향을 분석하기 위해.
일정, 점차 감소하는, 표준 감소(제곱 합계 가능) 스텝사이즈의 세 가지 스텝사이즈 제도 하에서의 수렴 행동을 조사하기 위해.
단일 시간 척도 GTDa의 제약 조건이 있는 및 없는 변형에 대한 수렴 분석을 확장하기 위해.
표준 감소 스텝사이즈 하에서 거의 확실한 수렴을 가능하게 하는 유한한 유인성 추적의 역할을 명확히 하기 위해.

제안 방법

일정 및 점차 감소하는 스텝사이즈 하에서의 점근적 행동을 기술하기 위해 확률적 근사 이론의 약한 수렴 방법을 적용한다.
표준 감소 스텝사이즈 제도 하에서 거의 확실한 수렴 분석을 위해 확률적 근사 이론을 활용한다.
유한한 유인성 추적을 보장하면서도 더 큰 λ 값을 允허하는 역사에 의존하는 λ-스키마를 도입한다.
두 시간 척도 GTD 알고리즘의 역학을 빠른 시간 척도와 느린 시간 척도 업데이트로 분해하여 분석한다.
미분 포함 및 마르코프 체인의 정적성 성질을 활용하여 상태-추적 과정과 그 정적 측도를 연구한다.
각 알고리즘에 대해 평균 ODE를 유도하고, 이러한 ODE의 내부로 연결된 전이 가능한 정적 집합으로의 수렴을 증명한다.

실험 결과

연구 질문

RQ1일정 또는 점차 감소하는 스텝사이즈 하에서 두 시간 척도 기반 기울기 TD 알고리즘이 수렴하는 조건은 무엇인가?
RQ2표준 감소 스텝사이즈 하에서 유인성 추적이 유한하지 않은 경우 기울기 기반 오프-폴리시 TD 알고리즘이 거의 확실한 수렴을 보일 수 있는가?
RQ3유한한 유인성 추적을 보장하는 역사에 의존하는 λ-스키마가 상태에 의존하는 또는 일정한 λ와 비교해 수렴에 어떤 영향을 미치는가?
RQ4최소화 문제로 공식화된 단일 시간 척도 GTDa 알고리즘의 수렴 행동은 어떠한가?
RQ5GTD 및 미러-강하 TD 알고리즘의 편향된 변형은 동일한 스텝사이즈 및 λ-스키마 조건 하에서도 수렴 성질을 유지하는가?

주요 결과

일정 및 점차 감소하는 스텝사이즈 하에서 분석된 모든 알고리즘은 그에 상응하는 평균 ODE의 내부로 연결된 전이 가능한 정적 집합으로 분포 수렴한다.
역사에 의존하는 λ-스키마를 통해 유인성 추적이 유한하게 유지될 경우, 두 시간 척도 GTD 및 MD-GTD는 표준 감소 스텝사이즈 조건 하에서 거의 확실한 수렴이 보장된다.
표준 감소 스텝사이즈 하에서 추적이 유한할 경우 단일 시간 척도 GTDa의 수렴이 증명되나, 상태에 의존하는 λ 하에서 추적이 유한하지 않은 경우 분석은 제한된다.
GTD 및 GTda의 편향된 변형은 근사적으로 기울기 기반 알고리즘으로 나타나며, 이들의 수렴 성질은 추적 과정의 유한성에 따라 달라진다.
표준 감소 스텝사이즈 조건 하에서 추적 과정이 유한할 경우, 비제약 조건이 적용된 단일 시간 척도 GTda의 수렴이 확립된다.
분석은 표준 감소 스텝사이즈 하에서 거의 확실한 수렴 보장을 가능하게 하는 데 있어 유한한 유인성 추적이 핵심임을 확인하며, 이는 추적 과정이 유한하지 않은 경우 잠재적인 불안정성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.