QUICK REVIEW

[논문 리뷰] An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural Policy Gradient Methods

Yanli Liu, Kaiqing Zhang|arXiv (Cornell University)|2022. 11. 15.

Stochastic Gradient Optimization Techniques참고 문헌 36인용 수 30

한 줄 요약

본 논문은 정책 경사(Policy Gradient, PG), 자연 정책 경사(Natural Policy Gradient, NPG) 및 이들의 분산 감소 변형에 대한 글로벌 수렴 분석을 재검토하고 강화하여 함수 근사 오차까지 글로벌 수렴성을 보이고 샘플 복잡도도 개선되었으며 새로운 SRVR-NPG 방법을 제시한다.

ABSTRACT

In this paper, we revisit and improve the convergence of policy gradient (PG), natural PG (NPG) methods, and their variance-reduced variants, under general smooth policy parametrizations. More specifically, with the Fisher information matrix of the policy being positive definite: i) we show that a state-of-the-art variance-reduced PG method, which has only been shown to converge to stationary points, converges to the globally optimal value up to some inherent function approximation error due to policy parametrization; ii) we show that NPG enjoys a lower sample complexity; iii) we propose SRVR-NPG, which incorporates variance-reduction into the NPG update. Our improvements follow from an observation that the convergence of (variance-reduced) PG and NPG methods can improve each other: the stationary convergence analysis of PG can be applied to NPG as well, and the global convergence analysis of NPG can help to establish the global convergence of (variance-reduced) PG methods. Our analysis carefully integrates the advantages of these two lines of works. Thanks to this improvement, we have also made variance-reduction for NPG possible, with both global convergence and an efficient finite-sample complexity.

연구 동기 및 목표

일반 매끄러운 정책 매개변수화 하에서 PG와 NPG의 글로벌 수렴 보장을 동기 부여하고 확립한다.
NPG 및 VR-PG 방법에 대해 기존 연구의 글로벌 수렴 속도를 개선한다.
자연 정책 경사에 분산 감소를 도입하는 SRVR-NPG를 도입한다.
유한 샘플 보장을 갖춘 SRVR-PG 및 SRVR-NPG의 글로벌 수렴을 입증한다.
실제 RL 설정에서 샘플 복잡도 및 함수 근사 편향에 대한 이론적 지침을 제공한다.

제안 방법

정지점 수렴성과 업데이트 방향의 정확도를 글로벌 정책 성능과 연결하는 일반화된 수렴 프레임워크를 개발한다.
피셔 정보 행렬의 양의 결정성을 가정하여 전처리된 업데이트를 가능하게 하고 기존 NPG 이론과의 관련성을 도출한다.
PG와 NPG에 분산 감소를 적용하여 SRVR-PG와 SRVR-NPG를 도출하고 이들의 글로벌 수렴을 분석한다.
표준 RL 가정하에서 PG, NPG, SRVR-PG, SRVR-NPG에 대한 비점근적 샘플 복잡도 결과를 도출한다.
유한 샘플 분석을 가능하게 하도록 잘린 GPOMDP 추정기와 중요도 가중 보정을 포함한다.

실험 결과

연구 질문

RQ1분산 감소된 PG 방법(SRVR-PG)이 함수 근사 오차 하에서 거의 최적 정책에 대한 글로벌 수렴에 도달할 수 있는가?
RQ2SRVR-NPG가 분산 감소를 결합했을 때 NPG의 글로벌 수렴 속도와 샘플 복잡성이 개선되는가?
RQ3피셔 정보 행렬의 양의 결정성이 PG/NPG 방법의 수렴성과 샘플 복잡도에 어떤 영향을 미치는가?
RQ4최적 해의 바이어스 항 이내의 정책 성능을 보장하기 위한 유한 샘플 요구조건(궤적 수, 전체 기간, 반복 횟수)은 무엇인가?

주요 결과

SRVR-PG는 함수 근사 오차까지 글로벌하게 수렴하며 샘플 복잡도는 O(epsilon^{-3})이다.
NPG는 제안된 프레임워크 하에서 O(epsilon^{-3})의 샘플 복잡도 또는 그보다 나은 글로벌 수렴을 달성하며, 기존의 O(epsilon^{-4}) 결과를 개선한다.
SRVR-NPG는 NPG에 분산 감소를 확장하여, 개선된 NPG 결과에 상응하는 유한 샘플 보장을 달성하는 글로벌 수렴에 도달한다.
피셔 정보를 양의 결정성으로 가정하면, PG와 NPG 모두에 대해 정지점 수렴과 글로벌 수렴 분석이 서로를 보완할 수 있음을 보인다.
본 논문은 분산 감소를 NPG에 통합할 수 있음을 증명하며, 실제 샘플 복잡도에 맞춘 효율적인 글로벌 수렴을 가능하게 한다.
Cartpole과 Mountain Car에 대한 수치 실험은 SRVR-NPG가 테스트된 방법들 중에서 가장 우수한 실험 성능을 제공함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.