QUICK REVIEW

[논문 리뷰] Off-Policy Actor-Critic

Thomas Degris, Martha White|arXiv (Cornell University)|2012. 05. 22.

Reinforcement Learning in Robotics참고 문헌 22인용 수 56

한 줄 요약

이 논문은 정책 기반 방법의 유연성과 오프-폴리시 시간 차분 학습의 데이터 효율성을 결합한, 처음으로 오프-폴리시 액터-크리틱 강화학습 알고리즘인 Off-PAC을 소개한다. 이 알고리즘은 유연성 트레이스와 기울기-TD 학습(GTD(λ)))를 사용하여 선형 시간, 인크리멘탈 업데이트를 가능하게 하며, 표준 가정 하에서 수렴성을 증명하고, 벤치마크 과제에서 Q(λ), Greedy-GQ, Softmax-GQ보다 뛰어난 성능과 낮은 분산을 보여준다.

ABSTRACT

This paper presents the first actor-critic algorithm for off-policy reinforcement learning. Our algorithm is online and incremental, and its per-time-step complexity scales linearly with the number of learned weights. Previous work on actor-critic algorithms is limited to the on-policy setting and does not take advantage of the recent advances in off-policy gradient temporal-difference learning. Off-policy techniques, such as Greedy-GQ, enable a target policy to be learned while following and obtaining data from another (behavior) policy. For many problems, however, actor-critic methods are more practical than action value methods (like Greedy-GQ) because they explicitly represent the policy; consequently, the policy can be stochastic and utilize a large action space. In this paper, we illustrate how to practically combine the generality and learning potential of off-policy learning with the flexibility in action selection given by actor-critic methods. We derive an incremental, linear time and space complexity algorithm that includes eligibility traces, prove convergence under assumptions similar to previous off-policy algorithms, and empirically show better or comparable performance to existing algorithms on standard reinforcement-learning benchmark problems.

연구 동기 및 목표

온-폴리시 방법의 한계를 극복하면서 오프-폴리시 학습을 가능하게 하는 강화학습 알고리즘을 개발하는 것.
오프-폴리시 학습의 일반성과 액터-크리틱 방법의 정책 표현 유연성(특히 스토케스틱 정책과 큰 행동 공간에 대해)을 결합하는 것.
유연성 트레이스와 인크리멘탈 업데이트를 지원하는 선형 시간 및 공간 복잡도를 갖춘 방법을 설계하는 것.
이전의 오프-폴리시 기울기-TD 방법과 유사한 가정 하에서 제안된 알고리즘의 수렴성을 증명하는 것.
기존의 오프-폴리시 알고리즘들과 비교하여 표준 벤치마크 문제에서 Off-PAC의 실험적 평가를 수행하는 것.

제안 방법

오프-폴리시 데이터를 사용하여 현재 정책의 가치 함수를 추정하는 크리틱과 정책 가중치를 학습하는 액터로 구성된 두 가지 구성 요소를 갖는 오프-폴리시 액터-크리틱 알고리즘인 Off-PAC을 제안한다.
오프-폴리시 경험에서 크리틱의 가치 함수 추정치를 학습하기 위해, 유연성 트레이스를 갖춘 기울기-TD 방법인 GTD(λ)를 사용한다.
유연성 트레이스를 사용하여 정책 가중치에 대한 역방향 시각 업데이트 규칙을 유도하여, 인크리멘탈 및 선형 시간 업데이트를 가능하게 한다.
새로운 정책 목표 함수를 정의하고, 오프-폴리시 조건 하에서도 유효한 정책 기울기 업데이트를 유도한다.
크리틱이 액터보다 더 자주 업데이트되는 이중 시간 척도 업데이트 규칙을 적용하여 안정성과 수렴성을 확보한다.
실제 적용에서 안정성과 강건성을 향상시키기 위해 스텝 사이즈 스케줄링 및 서브샘플링 기법을 적용한다.

실험 결과

연구 질문

RQ1액터-크리틱 방법은 수렴성과 효율성을 유지하면서 오프-폴리시 학습으로 확장될 수 있는가?
RQ2어떻게 선형 복잡도를 유지하면서 오프-폴리시 액터-크리틱 학습에 효과적으로 유연성 트레이스를 통합할 수 있는가?
RQ3Q(λ)와 Greedy-GQ와 같은 기존의 오프-폴리시 가치 기반 방법보다 오프-폴리시 액터-크리틱 방법이 최종 성능과 샘플 효율성 측면에서 뛰어나게 되는가?
RQ4액터-크리틱 기반 방법은 액션-가치 기반 방법보다 낮은 분산과 더 안정적인 학습을 달성할 수 있는가?
RQ5어떤 하이퍼파라미터 설정과 업데이트 스케줄링 전략이 오프-폴리시 액터-크리틱 학습에서 강건한 성능을 이끌어내는가?

주요 결과

Off-PAC는 세 가지 벤치마크 문제에서 모두 최고의 최종 성능를 기록했으며, 특히 연속적인 격자 세계에서 유일하게 목표에 도달하는 정책을 안정적으로 학습시킨 알고리즘이었다.
Off-PAC는 런에 걸쳐 일관되게 가장 낮은 표준편차를 보였으며, Q(λ), Greedy-GQ, Softmax-GQ보다 더 강건하고 분산이 낮다는 것을 시사한다.
연속적인 격자 세계에서 Off-PAC는 5,000 에피소드 후에 목표에 도달하는 정책을 성공적으로 학습했지만, 다른 알고리즘들은 이를 안정적으로 달성하지 못했다.
알고리즘은 선형 시간 및 공간 복잡도를 보였으며, 학습된 가중치의 수에 따라 효율적으로 스케일링되었다.
이전의 오프-폴리시 기울기-TD 방법과 유사한 가정 하에서 수렴성이 증명되었으며, 이는 이론적 기반의 타당성을 입증한다.
실험 결과에 따르면, 액션-가치 기반 방법보다 오프-폴리시 노이즈에 더 강건한 것으로 나타나, 실세계 적용에 있어 유망한 가능성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.