QUICK REVIEW

[논문 리뷰] Sample Efficient Policy Gradient Methods with Recursive Variance Reduction

Pan Xu, Felicia Gao|arXiv (Cornell University)|2019. 09. 18.

Reinforcement Learning in Robotics참고 문헌 65인용 수 34

한 줄 요약

본 논문은 SRVR-PG를 도입하며, ε-근사 정지점에 도달하기 위한 샘플 복잡도 O(1/ε^{3/2})를 달성하는 확률적 재귀 분산 감소 정책 경사 방법이며, 매개변수 공간 탐색용 SRVR-PG-PE 변형을 제공하고, 고전 제어 태스크에서 검증된다.

ABSTRACT

Improving the sample efficiency in reinforcement learning has been a long-standing research problem. In this work, we aim to reduce the sample complexity of existing policy gradient methods. We propose a novel policy gradient algorithm called SRVR-PG, which only requires $O(1/ε^{3/2})$ episodes to find an $ε$-approximate stationary point of the nonconcave performance function $J(\boldsymbolθ)$ (i.e., $\boldsymbolθ$ such that $\| abla J(\boldsymbolθ)\|_2^2\leqε$). This sample complexity improves the existing result $O(1/ε^{5/3})$ for stochastic variance reduced policy gradient algorithms by a factor of $O(1/ε^{1/6})$. In addition, we also propose a variant of SRVR-PG with parameter exploration, which explores the initial policy parameter from a prior probability distribution. We conduct numerical experiments on classic control problems in reinforcement learning to validate the performance of our proposed algorithms.

연구 동기 및 목표

비가산(nonconvex) 성능 함수에 대한 정책 경사 방법의 샘플 복잡도 감소를 동기화한다.
재귀적 분산 감소를 통해 샘플 효율성을 개선하기 위해 SRVR-PG를 제안한다.
매개변수 기반 탐색을 추가하는 SRVR-PG-PE 변형을 개발한다.
수렴성 및 샘플 복잡도에 대한 이론적 보장을 제공한다.
고전 강화학습 제어 태스크에서의 실험적 성능을 입증한다.

제안 방법

S 에포크와 외부 스냅샷 그래디언트를 갖는 SRVR-PG(확률적 재귀 분산 감소 정책 경사) 알고리즘을 도입한다.
현재 궤적 그래디언트 항과 스냅샷 항(오메가)의 단계별 중요가중치를 포함하는 재귀적 준확률 그래디언트 추정기 v t+1을 사용하고, v t+1 = v t + (1/B) sum_j [g(tau_j|θ_t) - g_ω(tau_j|θ_{t-1})]로 재귀한다.
현재 정책에서 샘플링하되 스냅샷 정책으로 추정할 때 분포를 정렬하기 위한 중요가중치를 적용하여 E[g_ω(τ|θ_{t-1})]가 E[g(τ|θ_{t-1})]와 일치하도록 한다.
Θ로의 투영적 증가 θ_{t+1} = P_Θ(θ_t + η v_t)로 θ를 업데이트하며, P_Θ는 볼록제한집합 Θ에의 투영이다.
정의된 가정(정책 그래디언트/헤시안의 한계, 그래디언트 분산의 한계, 중요가중치의 분산 한계)에 대한 수렴 분석을 제공한다.
적절한 η, m, N, B의 선택으로 SRVR-PG가 E[||G_η(θ_out)||^2] ≤ ε를 O(1/ε^{3/2}) 궤적에서 달성함을 보인다.

실험 결과

연구 질문

RQ1SRVR-PG가 비볼록한 성능 함수에 대해 이전의 분산 감소 방법들보다 정책 경사 방법의 샘플 복잡도를 줄일 수 있는가?
RQ2단계별 중요가중치 적용과 재귀가 수렴성 보장 및 샘플 복잡도에 어떤 영향을 미치는가?
RQ3매개변수 공간 탐색인 SRVR-PG-PE 변형이 궤적 복잡도를 증가시키지 않으면서 성능을 개선하는가?
RQ4가우시안 정책에 대한 이론적 보장이 horizon 및 할인 인자 의존성 측면에서 어떠한가?

주요 결과

Algorithms	Complexity
REINFORCE (Williams, 1992)	O(1/ε^{2})
PGT (Sutton et al., 2000)	O(1/ε^{2})
GPOMDP (Baxter & Bartlett, 2001)	O(1/ε^{2})
SVRPG (Papini et al., 2018)	O(1/ε^{2})
SVRPG (Xu et al., 2019)	O(1/ε^{5/3})
SRVR-PG (This paper)	O(1/ε^{3/2})

SRVR-PG는 O(1/ε^{3/2}) 궤적으로 ε-근사 정지점에 도달하며, 이전 SVRPG의 O(1/ε^{5/3}) 대비 ε^{-1/6}의 차수로 향상된다.
해당 분석은 일부 이전 결과의 O(1/B) 항을 피하고 미니배치 크기를 horizon H와 무관하게 만드는 수렴성을 제시한다.
가우시안 정책의 경우, horizon과 달리 명시적으로 의존하는 (1−γ) 및 H 의존성을 가진 O(1/ε^{3/2}) 샘플 복잡도를 달성한다.
SRVR-PG-PE는 매개변수 기반 탐색을 통합하며 샘플 복잡도를 증가시키지 않고 제어 태스크에서 실전 성능이 더 우수할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.