QUICK REVIEW

[논문 리뷰] Stochastic Variance Reduction Methods for Policy Evaluation

Simon S. Du, Jianshu Chen|arXiv (Cornell University)|2017. 02. 25.

Reinforcement Learning in Robotics인용 수 69

한 줄 요약

본 논문은 경험적 MSPBE를 볼록-오목 샐드-포인트 문제로 변환하고 정책 평가를 위한 프라이멀-듀얼 및 확률적 분산 감소 알고리즘(SVRG 및 SAGA)을 개발하여 선형 수렴을 달성한다. 선형 함수 근사를 사용하는 정책 평가에서 유효한 수렴성을 보장한다.

ABSTRACT

Policy evaluation is a crucial step in many reinforcement-learning procedures, which estimates a value function that predicts states' long-term value under a given policy. In this paper, we focus on policy evaluation with linear function approximation over a fixed dataset. We first transform the empirical policy evaluation problem into a (quadratic) convex-concave saddle point problem, and then present a primal-dual batch gradient method, as well as two stochastic variance reduction methods for solving the problem. These algorithms scale linearly in both sample size and feature dimension. Moreover, they achieve linear convergence even when the saddle-point problem has only strong concavity in the dual variables but no strong convexity in the primal variables. Numerical experiments on benchmark problems demonstrate the effectiveness of our methods.

연구 동기 및 목표

강화 학습에서 고정 데이터 세트 하의 효율적인 정책 평가를 동기화한다.
Finite-sum 구조를 가진 MSPBE 최소화를 볼록-오목 샐드-포인트 문제로 형식화한다.
저렴한 단위당 비용으로 선형 수렴을 갖는 확장 가능한 알고리즘을 개발한다.
완만한 가정 하에서 SVRG 및 SAGA 변형을 통해 이론적 수렴 보장을 제공한다.
벤치마크 RL 문제에서의 실험을 통해 효과를 입증한다.

제안 방법

Conjugate 함수를 사용하여 EM-MSPBE를 볼록-오목 샐드-포인트 문제로 변환한다.
전체 순위 결합과 양의 definite C에서 선형 수렴을 보이는 프라이멀-듀얼 배치 그래디언트 방법(PDBG)을 유도한다.
유한 합 구조를 활용한 빠른 분산 감소 업데이트를 위한 SVRG 및 SAGA 변형을 도입한다.
단위당 비용이 Z(d^2) 이하거나 더 낮고 샘플 크기 n 및 특징 차원 d에 따라 선형적으로 스케일되도록 보장한다.
프라이멀 목적이 강하게 볼록하지 않아도 이차 결합 A와 C가 잘 조건화되어 있는 경우에도 선형 수렴 속도를 보임을 보장하는 수렴 보장을 제공한다.
오프 폴리시 학습 및 TD(eligibility traces)에 대한 확장 가능성에 대해 논의한다.

실험 결과

연구 질문

RQ1EM-MSPBE를 분산 감소 방법에 적합한 유한 합 볼록-오목 샐드-포인트 문제로 재구성할 수 있는가?
RQ2샐드-포인트 문제가 듀얼 강-오목성만 존재하고(full-rank 결합 행렬이 있는 경우 rho가 0일 수도 있음)인 상황에서도 SVRG와 SAGA가 정책 평가에서 선형 수렴을 달성하는가?
RQ3제안된 방법들이 표준 RL 데이터 세트에서 기존의 정책 평가 알고리즘과 계산 비용 및 수렴 측면에서 어떻게 비교되는가?
RQ4이 샐드-포인트 프레임워크에서 오프폴리시 학습 및 eligibility traces의 함의는 무엇인가?

주요 결과

SVRG 및 SAGA는 Assumption 1(전 랭크의 Ẫ A와 양의 정의 Ĉ)을 만족할 때 EM-MSPBE를 이용한 정책 평가에서 선형 수렴을 달성한다.
전랭크 이중선 결합으로 인해 듀얼 강-오목성만 존재하는 경우에도 프라이멀-듀얼 형식이 선형 수렴을 가능하게 한다(rho = 0의 경우에도).
단위당 비용이 데이터 세트 크기 n 및 특징 차원 d에 따라 선형으로 스케일하며 그라디언트 기반 업데이트가 효율적이다.
SVRG/SAGA는 n이 크거나 d가 큰 구간에서 전통적 그래디언트 방법 및 LSTD보다 우수한 성능을 보이며 복잡도 측면에서 유리하다.
이 접근법은 오프폴리시 학습 및 TD(eligibility traces)로의 확장을 통해 수렴 보장을 희생하지 않고 확장 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.