QUICK REVIEW

[논문 리뷰] A Multistep Lyapunov Approach for Finite-Time Analysis of Biased Stochastic Approximation

Gang Wang, Bingcong Li|arXiv (Cornell University)|2019. 09. 10.

Reinforcement Learning in Robotics참고 문헌 34인용 수 25

한 줄 요약

이 논문은 일반적인 스토하스틱 노이즈, 특히 마르코프 체인을 포함하여 편향이 있는 확률적 근사(Stochastic Approximation, SA) 알고리즘의 유한시간 분석을 가능하게 하는 새로운 다단계 리아푸노프 함수를 제안한다. 이는 일반적인 혼합 조건과 임의의 초기 분포 하에서, 투영 단계나 혼합 시간 대기 없이도 수정되지 않은 TD(0) 및 Q-학습 알고리즘에 대해 최초로 비점근적 평균 제곱 오차 경계를 확립한다. 선형 및 비선형 함수 근사기법을 사용하는 경우에도 적용 가능하다.

ABSTRACT

Motivated by the widespread use of temporal-difference (TD-) and Q-learning algorithms in reinforcement learning, this paper studies a class of biased stochastic approximation (SA) procedures under a mild "ergodic-like" assumption on the underlying stochastic noise sequence. Building upon a carefully designed multistep Lyapunov function that looks ahead to several future updates to accommodate the stochastic perturbations (for control of the gradient bias), we prove a general result on the convergence of the iterates, and use it to derive non-asymptotic bounds on the mean-square error in the case of constant stepsizes. This novel looking-ahead viewpoint renders finite-time analysis of biased SA algorithms under a large family of stochastic perturbations possible. For direct comparison with existing contributions, we also demonstrate these bounds by applying them to TD- and Q-learning with linear function approximation, under the practical Markov chain observation model. The resultant finite-time error bound for both the TD- as well as the Q-learning algorithms is the first of its kind, in the sense that it holds i) for the unmodified versions (i.e., without making any modifications to the parameter updates) using even nonlinear function approximators; as well as for Markov chains ii) under general mixing conditions and iii) starting from any initial distribution, at least one of which has to be violated for existing results to be applicable.

연구 동기 및 목표

일반적인 스토하스틱 노이즈 시퀀스 하에서 편향이 있는 확률적 근사(SA) 알고리즘에 대한 점근적이지 않은 성능 보장을 개발하는 것.
기존의 유한시간 분석에서 요구하는 투영 단계, 기하학적 혼합 조건, 또는 긴 초기화 지연 시간 등의 제약 조건을 극복하는 것.
비선형 함수 근사기법을 사용하는 수정되지 않은 TD(0) 및 Q-학습 알고리즘에 대한 유한시간 오차 경계를 확장하는 것.
마르코프 체인 관측치에 대해 일반적인 혼합 속도와 임의의 초기 분포 하에서 수렴성을 분석하는 것.
새로운 다단계 리아푸노프 함수를 통해 SA 절차에 대한 유한시간 분석을 위한 일반적인 프레임워크를 제공하는 것.

제안 방법

스토하스틱 편향으로 인한 기울기 편향을 제어하기 위해 미래의 반복값을 포함하는 다단계 리아푸노프 함수를 설계하는 것.
노이즈 시퀀스에 대해 약한 '에르고딕 유사' 가정을 도입하며, 이는 i.i.d. 시퀀스 및 기약성, 비주기성 마르코프 체인 모두에 대해 유효하다.
업데이트 규칙에서 순간적인 노이즈로 인한 편향을 안정화하기 위해 다수의 단계를 앞서 보는 리아푸노프 함수를 구성하는 것.
다단계 리아푸노프 함수를 사용하여 일정 단계 크기의 SA 절차에 대한 점근적이지 않은 평균 제곱 오차 경계를 유도하는 것.
단일 궤적 마르코프 체인 모델 하에서 선형 함수 근사기법을 사용하는 TD(0) 및 Q-학습에 일반 경계를 특수화하는 것.
경계가 투영 단계 없이, 첫 번째 반복부터, 일반적인 혼합 조건 하에서도 성립함을 증명하는 것.

실험 결과

연구 질문

RQ1투영 단계가 필요 없이 수정되지 않은 TD(0) 및 Q-학습 알고리즘에 대해 유한시간 오차 경계를 확립할 수 있는가?
RQ2일반적인 혼합 마르코프 체인과 임의의 초기 분포 하에서 편향이 있는 SA에 대해 비점근적 보장을 도출할 수 있는가?
RQ3제안된 다단계 리아푸노프 함수가 일반적인 스토하스틱 편향의 상황에서 기울기 편향을 효과적으로 제어할 수 있는가?
RQ4유도된 경계가 선형 모델 외에도 비선형 함수 근사기법에 대해서도 성립하는가?
RQ5소음 과정에 대해 최소한의 가정만으로도 일정 단계 크기의 SA 절차에 대한 분석을 확장할 수 있는가?

주요 결과

제안된 다단계 리아푸노프 함수는 일반적인 스토하스틱 편향, 특히 일반적인 혼합 속도를 갖는 마르코프 체인까지 포함한 광범위한 클래스에서 편향이 있는 SA의 유한시간 분석을 가능하게 한다.
수정되지 않은 TD(0) 및 선형 함수 근사기법을 사용하는 Q-학습에 대해 최초로 비점근적 평균 제곱 오차 경계를 도출하였으며, 이는 첫 번째 반복부터, 임의의 초기 분포 하에서도 유효하다.
경계는 컴act 집합으로의 투영 단계가 필요 없으며, 이는 기존 연구에서 이러한 제약 조건을 부과하는 것과 대비해 핵심적인 이점이다.
함수 근사기법이 가정 1을 만족하는 한 비선형 함수 근사기법에도 적용 가능하여 선형 모델을 초월한다.
기존 연구가 기하학적 혼합 조건을 요구하는 것과 달리, 일반적인 혼합 조건(예: 지수적 이하의 혼합 속도 포함) 하에서도 경계가 유효하다.
이론적 프레임워크는 Q-학습에 대해 선형 함수 근사기법이 표준 샘플링 및 근사 조건 하에서 가정 1–3를 만족함을 증명함으로써 검증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.