[논문 리뷰] Improving Sample Complexity Bounds for (Natural) Actor-Critic Algorithms
이 논문은 마르코프성 샘플링, 미니배치 업데이트, 일반적인 정책 함수 근사와 함께 액터-크리틱(AC) 및 자연 액터-크리틱(NAC) 알고리즘에 대해 이론적으로 샘플 복잡도 향상을 처음으로 확립한다. 이는 미니배치 AC가 정책 그래디언트(PG)보다 $\mathcal{O}((1-\gamma)^{-3})$의 요소로 향상되며, 미니배치 NAC가 자연 정책 그래디언트(NPG)보다 $\mathcal{O}((1-\gamma)^{-4}\epsilon^{-1}/\log(1/\epsilon))$로 향상됨을 보여주며, 무한할인 시간 MDP에서 AC/NAC가 PG/NPG보다 순서적으로 열등함을 입증한다.
The actor-critic (AC) algorithm is a popular method to find an optimal policy in reinforcement learning. In the infinite horizon scenario, the finite-sample convergence rate for the AC and natural actor-critic (NAC) algorithms has been established recently, but under independent and identically distributed (i.i.d.) sampling and single-sample update at each iteration. In contrast, this paper characterizes the convergence rate and sample complexity of AC and NAC under Markovian sampling, with mini-batch data for each iteration, and with actor having general policy class approximation. We show that the overall sample complexity for a mini-batch AC to attain an $ε$-accurate stationary point improves the best known sample complexity of AC by an order of $\mathcal{O}(ε^{-1}\log(1/ε))$, and the overall sample complexity for a mini-batch NAC to attain an $ε$-accurate globally optimal point improves the existing sample complexity of NAC by an order of $\mathcal{O}(ε^{-1}/\log(1/ε))$. Moreover, the sample complexity of AC and NAC characterized in this work outperforms that of policy gradient (PG) and natural policy gradient (NPG) by a factor of $\mathcal{O}((1-γ)^{-3})$ and $\mathcal{O}((1-γ)^{-4}ε^{-1}/\log(1/ε))$, respectively. This is the first theoretical study establishing that AC and NAC attain orderwise performance improvement over PG and NPG under infinite horizon due to the incorporation of critic.
연구 동기 및 목표
- 실제 샘플링 및 업데이트 방식 하에서 액터-크리틱(AC) 및 자연 액터-크리틱(NAC) 알고리즘의 샘플 복잡도 분석에 있어 이론적 격차를 메우기 위해.
- 마르코프성 샘플링, 미니배치 업데이트, 일반 비선형 정책 근사 하에서 AC와 NAC의 유한 샘플 수렴 속도 및 샘플 복잡도를 규명하기 위해.
- 무한할인 시간 MDP에서 AC와 NAC가 각각 정책 그래디언트(PG)와 자연 정책 그래디언트(NPG)보다 순서적으로 더 나은 샘플 복잡도를 달성함을 입증하기 위해.
- 특히 할인 요소 $\gamma$ 를 고려할 때 AC/NAC가 PG/NPG보다 샘플 효율성 면에서 더 나은지에 대한 오랫동안 지속된 이론적 모호성을 해결하기 위해.
제안 방법
- 각 반복에서 마르코프성 미니배치 샘플링을 사용하는 단일 샘플 경로를 기반으로 온라인 AC 및 NAC 알고리즘을 분석한다.
- 비평가 근사 오차, 액터 근사 오차, 마르코프성 샘플링 영향을 고려하는 새로운 수렴 분석 프레임워크를 도입한다.
- 가치 함수 근사에서 발생하는 편향을 포함하여 라플라스 함수 $D(w_t)$ 를 사용해 기대 정책 그래디언트 노름에 대한 재귀 부등식을 유도한다.
- 수렴과 근사 오차를 균형 잡는 데 사용되는 단계 크기 $\alpha$ 를 활용하고, 기대 정책 가치 갭 $J(\pi^*) - \frac{1}{T}\sum_{t=0}^{T-1}\mathbb{E}[J(\pi_{w_t})]$ 에 대한 경계를 유도한다.
- 함수 근사의 영향을 정량화하기 위해 액터 근사 오차 $\zeta^{\text{actor}}_{\text{approx}}$ 와 비평가 근사 오차 $\zeta^{\text{critic}}_{\text{approx}}$ 를 도입하고 경계를 설정한다.
- 수렴 오차와 근사 오차를 균형 잡는 데 최적화된 반복 수 $T$, 배치 크기 $B$, 단계 크기 $\alpha$ 를 통해 총 샘플 복잡도를 유도한다.
실험 결과
연구 질문
- RQ1마르코프성 샘플링과 일반 정책 근사 하에서 기존 AC 방법보다 미니배치 AC 알고리즘이 더 나은 샘플 복잡도를 달성하는가?
- RQ2무한할인 시간 MDP에서 NAC 알고리즘이 NPG보다 순서적으로 더 나은 샘플 복잡도를 달성할 수 있는가, 특히 할인 요소 $\gamma$ 를 고려할 때?
- RQ3실험적으로 관찰된 AC와 NAC의 성능 우월성이 샘플 복잡도 측면에서 이론적으로 정당화되는가?
- RQ4표현식 $1 - \gamma$ 에 대한 의존성이 AC와 NAC의 샘플 복잡도에 미치는 영향은 PG와 NPG에 비해 어떻게 다른가?
- RQ5마르코프성 샘플링 하에서 액터와 비평가가 모두 일반 비선형 함수 근사기를 사용할 경우, 미니배치 AC와 NAC의 총 샘플 복잡도는 얼마인가?
주요 결과
- 미니배치 AC의 샘플 복잡도가 $\epsilon$-정확한 정적점에 도달하기 위해 기존 최선의 경계보다 $\mathcal{O}(\epsilon^{-1}\log(1/\epsilon))$ 향상된다.
- 미니배치 NAC의 샘플 복잡도가 $\epsilon$-정확한 전역 최적 정책에 도달하기 위해 기존 경계보다 $\mathcal{O}(\epsilon^{-1}/\log(1/\epsilon))$ 향상된다.
- 미니배치 AC의 총 샘플 복잡도는 $\mathcal{O}\left(\frac{1}{(1-\gamma)^4\epsilon^3}\log(1/\epsilon)\right)$ 이며, 이는 기존 최선의 PG 복잡도보다 $\mathcal{O}((1-\gamma)^{-3})$ 더 우수하다.
- 미니배치 NAC의 총 샘플 복잡도는 $\mathcal{O}\left(\frac{1}{(1-\gamma)^4\epsilon^3}\log(1/\epsilon)\right)$ 이며, NPG보다 $\mathcal{O}((1-\gamma)^{-4}\epsilon^{-1}/\log(1/\epsilon))$ 더 향상된다.
- 이 연구는 AC와 NAC가 무한할인 시간 MDP에서 PG와 NPG보다 순서적으로 더 나은 샘플 복잡도를 달성한다는 최초의 이론적 증거를 제공한다. 이는 비평가의 분산 감소 덕분이다.
- 분석은 비평가가 그래디언트 분산을 감소시켜 PG와 NPG보다 증명 가능하고 뚜렷한 샘플 복잡도 우월성을 제공함을 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.