[논문 리뷰] Sample Efficient Policy Gradient Methods with Recursive Variance Reduction
본 논문은 SRVR-PG를 도입하며, ε-근사 정지점에 도달하기 위한 샘플 복잡도 O(1/ε^{3/2})를 달성하는 확률적 재귀 분산 감소 정책 경사 방법이며, 매개변수 공간 탐색용 SRVR-PG-PE 변형을 제공하고, 고전 제어 태스크에서 검증된다.
Improving the sample efficiency in reinforcement learning has been a long-standing research problem. In this work, we aim to reduce the sample complexity of existing policy gradient methods. We propose a novel policy gradient algorithm called SRVR-PG, which only requires $O(1/ε^{3/2})$ episodes to find an $ε$-approximate stationary point of the nonconcave performance function $J(\boldsymbolθ)$ (i.e., $\boldsymbolθ$ such that $\| abla J(\boldsymbolθ)\|_2^2\leqε$). This sample complexity improves the existing result $O(1/ε^{5/3})$ for stochastic variance reduced policy gradient algorithms by a factor of $O(1/ε^{1/6})$. In addition, we also propose a variant of SRVR-PG with parameter exploration, which explores the initial policy parameter from a prior probability distribution. We conduct numerical experiments on classic control problems in reinforcement learning to validate the performance of our proposed algorithms.
연구 동기 및 목표
- 비가산(nonconvex) 성능 함수에 대한 정책 경사 방법의 샘플 복잡도 감소를 동기화한다.
- 재귀적 분산 감소를 통해 샘플 효율성을 개선하기 위해 SRVR-PG를 제안한다.
- 매개변수 기반 탐색을 추가하는 SRVR-PG-PE 변형을 개발한다.
- 수렴성 및 샘플 복잡도에 대한 이론적 보장을 제공한다.
- 고전 강화학습 제어 태스크에서의 실험적 성능을 입증한다.
제안 방법
- S 에포크와 외부 스냅샷 그래디언트를 갖는 SRVR-PG(확률적 재귀 분산 감소 정책 경사) 알고리즘을 도입한다.
- 현재 궤적 그래디언트 항과 스냅샷 항(오메가)의 단계별 중요가중치를 포함하는 재귀적 준확률 그래디언트 추정기 v t+1을 사용하고, v t+1 = v t + (1/B) sum_j [g(tau_j|θ_t) - g_ω(tau_j|θ_{t-1})]로 재귀한다.
- 현재 정책에서 샘플링하되 스냅샷 정책으로 추정할 때 분포를 정렬하기 위한 중요가중치를 적용하여 E[g_ω(τ|θ_{t-1})]가 E[g(τ|θ_{t-1})]와 일치하도록 한다.
- Θ로의 투영적 증가 θ_{t+1} = P_Θ(θ_t + η v_t)로 θ를 업데이트하며, P_Θ는 볼록제한집합 Θ에의 투영이다.
- 정의된 가정(정책 그래디언트/헤시안의 한계, 그래디언트 분산의 한계, 중요가중치의 분산 한계)에 대한 수렴 분석을 제공한다.
- 적절한 η, m, N, B의 선택으로 SRVR-PG가 E[||G_η(θ_out)||^2] ≤ ε를 O(1/ε^{3/2}) 궤적에서 달성함을 보인다.
실험 결과
연구 질문
- RQ1SRVR-PG가 비볼록한 성능 함수에 대해 이전의 분산 감소 방법들보다 정책 경사 방법의 샘플 복잡도를 줄일 수 있는가?
- RQ2단계별 중요가중치 적용과 재귀가 수렴성 보장 및 샘플 복잡도에 어떤 영향을 미치는가?
- RQ3매개변수 공간 탐색인 SRVR-PG-PE 변형이 궤적 복잡도를 증가시키지 않으면서 성능을 개선하는가?
- RQ4가우시안 정책에 대한 이론적 보장이 horizon 및 할인 인자 의존성 측면에서 어떠한가?
주요 결과
| Algorithms | Complexity |
|---|---|
| REINFORCE (Williams, 1992) | O(1/ε^{2}) |
| PGT (Sutton et al., 2000) | O(1/ε^{2}) |
| GPOMDP (Baxter & Bartlett, 2001) | O(1/ε^{2}) |
| SVRPG (Papini et al., 2018) | O(1/ε^{2}) |
| SVRPG (Xu et al., 2019) | O(1/ε^{5/3}) |
| SRVR-PG (This paper) | O(1/ε^{3/2}) |
- SRVR-PG는 O(1/ε^{3/2}) 궤적으로 ε-근사 정지점에 도달하며, 이전 SVRPG의 O(1/ε^{5/3}) 대비 ε^{-1/6}의 차수로 향상된다.
- 해당 분석은 일부 이전 결과의 O(1/B) 항을 피하고 미니배치 크기를 horizon H와 무관하게 만드는 수렴성을 제시한다.
- 가우시안 정책의 경우, horizon과 달리 명시적으로 의존하는 (1−γ) 및 H 의존성을 가진 O(1/ε^{3/2}) 샘플 복잡도를 달성한다.
- SRVR-PG-PE는 매개변수 기반 탐색을 통합하며 샘플 복잡도를 증가시키지 않고 제어 태스크에서 실전 성능이 더 우수할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.