QUICK REVIEW

[논문 리뷰] Convergent Actor-Critic Algorithms Under Off-Policy Training and Function Approximation

Hamid Reza Maei|arXiv (Cornell University)|2018. 02. 21.

Reinforcement Learning in Robotics참고 문헌 13인용 수 23

한 줄 요약

이 논문은 상태가치 함수 근사와 정책 기울기 업데이트를 사용하는 최초의 수렴 보장되는 비정책 Actor-Critic 알고리즘—Gradient Actor-Critic와 Emphatic Actor-Critic—을 제안한다. 이는 추가 하이퍼파rameter를 도입하지 않아도 수렴을 보장하며, 차원의 극복 문제로 인해 Q함수 근사가 실패하는 연속적 또는 큰 행동 공간에서 안정적인 학습을 가능하게 한다. 이 방법은 평균화된 상태가치 목적함수의 진정한 기울기를 활용하여, 수렴성을 보장한다.

ABSTRACT

We present the first class of policy-gradient algorithms that work with both state-value and policy function-approximation, and are guaranteed to converge under off-policy training. Our solution targets problems in reinforcement learning where the action representation adds to the-curse-of-dimensionality; that is, with continuous or large action sets, thus making it infeasible to estimate state-action value functions (Q functions). Using state-value functions helps to lift the curse and as a result naturally turn our policy-gradient solution into classical Actor-Critic architecture whose Actor uses state-value function for the update. Our algorithms, Gradient Actor-Critic and Emphatic Actor-Critic, are derived based on the exact gradient of averaged state-value function objective and thus are guaranteed to converge to its optimal solution, while maintaining all the desirable properties of classical Actor-Critic methods with no additional hyper-parameters. To our knowledge, this is the first time that convergent off-policy learning methods have been extended to classical Actor-Critic methods with function approximation.

연구 동기 및 목표

연속적 또는 큰 행동 공간에서 기능 근사를 사용하는 수렴 보장되는 비정책 Actor-Critic 방법의 부족을 해결한다.
고전적 비정책 정책 기울기 방법이 높은 분산 또는 수렴 보장이 없는 문제를 극복한다.
고전적 Actor-Critic의 효율성과 모듈성을 유지하면서 비정책 학습을 가능하게 하는 알고리즘을 개발한다.
추가 하이퍼파rameter를 도입하지 않고도 수렴성을 보장하여 고전적 방법의 단순성을 유지한다.
정확한 기울기 업데이트와 상태가치 함수를 활용하여 온정책 Actor-Critic을 비정책 학습으로 체계적으로 확장한다.

제안 방법

Actor 업데이트를 안정적으로 이끌기 위해 평균화된 상태가치 목적함수의 진정한 기울기를 유도한다.
GTD(λ)와 Emphatic-TD(λ) 알고리즘을 사용하여 유인성 추적을 활용해 비정책 상태가치 함수를 추정한다.
새로운 유인성 추적 업데이트를 $ f^\lambda_t $ 와 $ z_t $ 를 통해 도입하여 비정책 분포 이탈을 보정한다.
중요도 샘플링, 유인성 추적, 정책 기울기의 조합인 $ \psi_t $ 를 사용하여 액터 업데이트를 설계한다.
단계당 선형 시간 및 메모리 복잡도를 확보하여 온라인 및 누적 학습 성질을 유지한다.
마팅글 및 안정성 분석을 사용하여 표준 기능 근사 가정 하에서 수렴성을 증명한다.

실험 결과

연구 질문

RQ1값 함수와 정책 네트워크에 기능 근사를 사용할 때 비정책 Actor-Critic 알고리즘이 수렴 보장될 수 있는가?
RQ2Q함수 대신 상태가치 함수를 사용하면 연속적 또는 큰 행동 공간에서 차원의 극복 문제를 제거할 수 있는가?
RQ3유인성 추적과 중요도 샘플링을 사용해 비정책 환경에서 정책 목적함수의 진정한 기울기를 복원할 수 있는가?
RQ4표준 학습률 이외의 새로운 하이퍼파rameter를 도입하지 않고도 수렴성과 효율성을 유지할 수 있는가?
RQ5기존의 비정책 Actor-Critic 접근법(예: Off-PAC)과 비교해 본다면, 제안된 방법은 기울기 방향과 수렴성 측면에서 어떻게 다른가?

주요 결과

제안된 Gradient Actor-Critic와 Emphatic Actor-Critic 알고리즘은 기능 근사를 사용하는 비정책 학습에서 수렴을 보장하는 최초의 알고리즘이다.
이 알고리즘들은 단계당 선형 시간 및 메모리 복잡도를 확보하여 대규모 문제에 효율적으로 스케일링된다.
액터 업데이트는 정책 목적함수의 정확한 기울기를 사용하여, 이전 방법들(예: Off-PAC)에서 발견된 방향 오류를 피한다.
$ \lambda = 1 $ 인 경우, Emphatic-TD(1)과 GTD(1)은 동일한 해를 생성하며, 이는 MSE 최적의 가치 함수에 해당한다. 이는 알고리즘을 단순화하고 $ \lambda $ 튜닝을 제거한다.
이 방법은 고전적 Actor-Critic의 모든 바람직한 성질을 유지한다: 온라인, 누적 학습이며 추가 하이퍼파rameter가 없다.
반례를 통해 기존의 비정책 Actor-Critic 방법(예: Off-PAC)은 잘못된 기울기 방향으로 업데이트할 수 있음을 보여주며, 제안된 방법은 이 문제를 피한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.