QUICK REVIEW

[논문 리뷰] Finite-Sample Analysis of Proximal Gradient TD Algorithms

Bo Liu, Ji Liu|arXiv (Cornell University)|2020. 06. 06.

Reinforcement Learning in Robotics참고 문헌 38인용 수 105

한 줄 요약

본 논문은 gradient TD (GTD) 방법을 진정한 확률적 경사 알고리즘으로 재구성하고, 프라이멀-듀얼 샤들 포인트 objective를 통해 유한 샘플 성능 상한을 제시하며, proximal mirror maps를 이용한 가속화된 GTD 변형을 제안한다.

ABSTRACT

In this paper, we analyze the convergence rate of the gradient temporal difference learning (GTD) family of algorithms. Previous analyses of this class of algorithms use ODE techniques to prove asymptotic convergence, and to the best of our knowledge, no finite-sample analysis has been done. Moreover, there has been not much work on finite-sample analysis for convergent off-policy reinforcement learning algorithms. In this paper, we formulate GTD methods as stochastic gradient algorithms w.r.t.~a primal-dual saddle-point objective function, and then conduct a saddle-point error analysis to obtain finite-sample bounds on their performance. Two revised algorithms are also proposed, namely projected GTD2 and GTD2-MP, which offer improved convergence guarantees and acceleration, respectively. The results of our theoretical analysis show that the GTD family of algorithms are indeed comparable to the existing LSTD methods in off-policy learning scenarios.

연구 동기 및 목표

off-policy TD 학습에서 진정한 확률적 경사 방법의 필요성을 동기 부여하고 전통적 TD 방법의 불안정성을 다룬다.
샤들 포인트 형식에서 GTD/GTD2를 도출하여 유한 샘플 분석을 가능하게 한다.
경계화된 실행을 위한 투영과 안정성을 위한 평균화된 출력이 있는 개정된 GTD 알고리즘을 개발한다.
수렴 보장을 개선하기 위해 확률적 Mirror-Prox를 이용한 가속화된 GTD 변형을 제안한다.
이론적 유한 샘플 상한을 제공하고 off-policy 학습에 대한 시사점을 논의한다.

제안 방법

NEU와 MSPBE를 볼록-오목(convex-concave) 샤들 포인트 문제로 형식화하고 GTD 계열이 샤들 포인트로 수렴함을 보인다.
GTD와 GTD2를 통합하기 위해 M = I 또는 M = C인 샤들 포인트 목표 함수 L(theta,y)를 도입한다.
A, b, C의 편향되지 않은 추정치를 통해 GTD/GTD2의 진짜 SG 업데이트를 도출하고 유한 샘플 분석을 수행한다.
경계 가능한 적합성 집합으로의 투영을 포함하고 평균화된 반복들을 출력하는 GTD 알고리즘을 개정한다.
Stochastic Mirror-Prox (SMP)를 적용하여 GTD2-MP 및 관련 가속 변형들을 만든다.
고확률 유한 샘플 상한을 제공하고 on-policy와 off-policy 설정을 논의한다.

실험 결과

연구 질문

RQ1GTD와 GTD2를 샤들 포인트 형식을 사용하여 진정한 확률적 경사 방법으로 도출할 수 있는가?
RQ2off-policy 학습에서 GTD/GTD2에 대해 어떤 유한 샘플 성능 상한을 확립할 수 있는가?
RQ3근접/미러 맵 기반 업데이트가 수렴을 가속하고 보장을 개선하는가?
RQ4on-policy 및 off-policy 설정이 gradient TD 방법의 유한 샘플 상한에 어떻게 영향을 미치는가?
RQ5실용적인 개정(투영, 평균화)이 GTD 알고리즘의 안정성과 성능을 어떻게 향상시키는가?

주요 결과

GTD 및 GTD2는 샤들 포인트 목적을 가진 진정한 SG 방법으로 볼 수 있으며, 유한 샘플 분석이 가능하다.
표준 가정과 가벼운 꼬리 조건하에 샤들 포인트 형식에 대한 유한 샘플 상한이 도출된다.
투영된/개정된 GTD 알고리즘은 반복이 경계 내에 있도록 보장하고 고확률 오차 상한을 가능하게 한다.
GTD-MP 및 GTD2-MP(미러-프로크 기반)는 원래의 GTD 계열에 비해 가속된 수렴 보장을 제공한다.
on-policy 설정에서 성능 오차는 샘플 크기와 문제 조건화에 따라 스케일링되며, 다양한 시스템 상수에 의존하는 상한을 반영한다.
off-policy 설정에서 상한은 행동 정책과 타겟 정책 간의 거리와 공분산 행렬의 조건화에 의존한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.