QUICK REVIEW

[논문 리뷰] Meta-Gradient Reinforcement Learning

Zhongwen Xu, Hado van Hasselt|arXiv (Cornell University)|2018. 05. 24.

Machine Learning and Data Classification인용 수 96

한 줄 요약

논문은 반환 함수의 메타파라미터를 온라인으로 적응시키기 위한 그래디언트 기반 메타러닝 방법을 도입하여 Atari 게임 전반에서 성능을 개선하고, 200 million frames에서 57개의 게임에 대해 최첨단 결과를 달성한다.

ABSTRACT

The goal of reinforcement learning algorithms is to estimate and/or optimise the value function. However, unlike supervised learning, no teacher or oracle is available to provide the true value function. Instead, the majority of reinforcement learning algorithms estimate and/or optimise a proxy for the value function. This proxy is typically based on a sampled and bootstrapped approximation to the true value function, known as a return. The particular choice of return is one of the chief components determining the nature of the algorithm: the rate at which future rewards are discounted; when and how values should be bootstrapped; or even the nature of the rewards themselves. It is well-known that these decisions are crucial to the overall success of RL algorithms. We discuss a gradient-based meta-learning algorithm that is able to adapt the nature of the return, online, whilst interacting and learning from the environment. When applied to 57 games on the Atari 2600 environment over 200 million frames, our algorithm achieved a new state-of-the-art performance.

연구 동기 및 목표

한 Lifelong RL 태스크 내에서 반환 설계 선택(예: 할인율, 부트스트래핑)을 자동으로 적응시키는 것을 동기부여한다.
경사 기반 메타러닝 알고리즘을 제안하여 메타파라미터를 온라인으로 크로스 밸리데이션된 메타목적을 통해 조정한다.
대규모 딥 RL 설정에서 반환의 적응이 성능을 향상시키는지 입증한다.
메타파라미터에 따라 가치/정책 함수를 조건화하는 실용적 프레임워크를 제공하여 비정상성(non-stationarity)을 처리한다.
IMPALA와 Atari 2600 벤치마크를 사용한 확장성을 보여준다.

제안 방법

네트워크 매개변수 θ의 업데이트 규칙을 θ' = θ + f(τ, θ, η)로 정의하며, η는 메타파라미터이다.
온라인 교차검증을 도입하여 메타-그래디언트를 계산한다: ∂J'(τ', θ', η')/∂η = (∂J'(τ', θ', η')/∂θ') · (dθ'/dη).
온라인으로 누적되는 러닝 트레이스 z로 dθ'/dη를 근사한다: z' = μ z + ∂f(τ, θ, η)/∂η, μ ∈ [0,1].
메타목표에 대해 SGD를 통해 메타파라미터 Δη를 업데이트한다: Δη = -β ∂J'(τ', θ', η')/∂θ' · z'.
η에 대해 TD/λ 및 n-step 반환을 미분하여 반환에 대한 메타그래디언트를 구한다(예: γ, λ).
비정상성 처리를 위해 Universal Value Function Approximation 스타일 임베딩을 사용하여 η에 따라 가치 및 정책 네트워크를 조건화한다: vθ^η(S) = vθ([S; eη]), πθα(S) = πθα([S; eη]).
RMSProp 및 V-trace 오프폴리시 보정과 함께 A2C 스타일 배우-비평가로 실무에 확장하고, 병렬 미니배치와 궤적 재사용으로 구현한다.

실험 결과

연구 질문

RQ1메타그래디언트를 사용하여 RL에서 온라인 학습 중에 반환 함수(예: γ, λ)를 자동으로 최적화할 수 있는가?
RQ2온라인 메타러닝으로 반환을 학습하면 대규모 딥 RL 벤치마크에서 성능 향상이 나타나는가?
RQ3메타파라미터에 정책 및 가치 함수를 조건화하는 것이 비정상성 완화에 어떤 영향을 주는가?
RQ4제안된 메타그래디언트 접근법이 Atari 2600 게임에서 고정 반환 베이스라인 및 다른 메타러닝 방법과 어떻게 비교되는가?

주요 결과

η	Human starts (γ=0.99)	Human starts (γ=0.995)	No-op starts (γ=0.99)	No-op starts (γ=0.995)
IMPALA	144.4%	211.9%	191.8%	257.1%
{λ}	156.6%	214.2%	185.5%	246.5%
{γ}	233.2%	267.9%	280.9%	275.5%
{γ,λ}	221.6%	292.9%	242.6%	287.6%

메타그래디언트 RL은 IMPALA 기준선에 비해 Atari에서 중앙값 인간-정규화 점수를 상당한 차이로 증가시킨다.
γ, λ 중 하나 또는 둘을 적응시키면 고정 반환 설정보다 성능 향상이 크며, 인간 시작 및 무작위 시작 평가에서 모두 우수하다.
γ와 λ를 함께 사용하는 메타그래디언트는 특정 설정에서 중앙값 점수가 약 293%(Human starts) 및 288%(No-op)까지 도달한다.
메타매개변수에 따라 가치 및 정책을 임베딩을 통해 조건화하는 것이 조건화하지 않은 경우보다 성능을 향상시킨다.
이 방법은 200M 프레임으로 Atari에서 최첨단 결과를 달성하며, 비교 가능한 조건에서 Rainbow를 능가한다.
IMPALA 인프라 및 V-trace와 같은 오프폴리시 보정으로도 확장 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.