QUICK REVIEW

[논문 리뷰] A Self-Tuning Actor-Critic Algorithm

Tom Zahavy, Zhongwen Xu|arXiv (Cornell University)|2020. 02. 28.

Reinforcement Learning in Robotics참고 문헌 29인용 수 32

한 줄 요약

STAC와 STACX는 메타그래디언트를 사용해 배우-비평가 손실의 differentiable 하이퍼파라미터를 자동으로 조정하고, Leaky V-trace 변형 및 보조 작업을 더해 ALE와 DM Control 전반에서 지속적인 성능 향상을 달성하지만 상당한 계산 오버헤드는 없음.

ABSTRACT

Reinforcement learning algorithms are highly sensitive to the choice of hyperparameters, typically requiring significant manual effort to identify hyperparameters that perform well on a new domain. In this paper, we take a step towards addressing this issue by using metagradients to automatically adapt hyperparameters online by meta-gradient descent (Xu et al., 2018). We apply our algorithm, Self-Tuning Actor-Critic (STAC), to self-tune all the differentiable hyperparameters of an actor-critic loss function, to discover auxiliary tasks, and to improve off-policy learning using a novel leaky V-trace operator. STAC is simple to use, sample efficient and does not require a significant increase in compute. Ablative studies show that the overall performance of STAC improved as we adapt more hyperparameters. When applied to the Arcade Learning Environment (Bellemare et al. 2012), STAC improved the median human normalized score in 200M steps from 243% to 364%. When applied to the DM Control suite (Tassa et al., 2018), STAC improved the mean score in 30M steps from 217 to 389 when learning with features, from 108 to 202 when learning from pixels, and from 195 to 295 in the Real-World Reinforcement Learning Challenge (Dulac-Arnold et al., 2020).

연구 동기 및 목표

딥 RL에서 수동 하이퍼파라미터 튜닝을 줄이기 위해 메타그래디언트를 통해 온라인 자기 조정을 가능하게 하는 것을 목표로 한다.
STAC를 개발하여 IMPALA 손실의 모든 differentiable 하이파라미터를 자동으로 최적화하고 Leaky V-trace를 도입한다.
STACX로 보조 작업을 추가하여 공유 표현을 개선하는 유리한 보조 손실을 발견하면서 메타 매개변수를 자기 조정한다.
다양한 도메인(ALE와 DM Control)에서 ablation 및 강건성 분석과 함께 실증적 성능 향상을 입증한다.

제안 방법

inner 손실은 metaparameters _atter = {gamma, lambda, g_v, g_p, g_e}로 매개화되고, outer 손실에는 정책 드리프트를 방지하기 위한 KL 정규화 항이 포함된다.
온라인으로 differentiable 하이퍼파라미터를 자기 조정하기 위해 differentiable 메타-옵티마이저(Adam)를 outer 손실에 적용한다.
Leaky V-trace를 도입하여 중요도 샘플링과 잘린 IS 사이의 미분 가능한 보간을 누수 매개변수 alpha로 제어한다.
STACX의 경우 보조 헤드를 자체 메타 매개변수와 함께 추가하여 공유 표현을 개선하는 보조 작업을 학습하고, outer 손실은 주된 헤드에 초점을 맞춘다.
공유 표현 백본(ResNet 유사)을 다수의 헤드를 사용하고; 각 보조 헤드는 Leaky V-trace를 통해 오프-정책 보정에 대한 차별가능한 손실을 최적화한다.

실험 결과

연구 질문

RQ1메타그래디언트를 사용하여 온라인의 단일 수명 RL 설정에서 광범위한 differentiable 하이퍼파라미터를 메타그래디언트로 자동 조정할 수 있는가?
RQ2하이퍼파라미터의 자기 조정이 ALE와 DM Control 같은 다양한 도메인에서 샘플 효율성과 최종 성능을 향상시키는가?
RQ3Leaky V-trace가 오프-정책 배우-비평 학습에서 안정성과 성능에 미치는 영향은 무엇인가?
RQ4보조 작업(STACX)과 그것들의 자기 조정 메타매개변수가 표현 학습과 성능을 더 향상시키는가?

주요 결과

STACX는 Atari 200M 프레임에서 인간 보정 점수의 중앙값 364%를 달성했다(기준 243%).
DM Control에서 STACX/STAC가 특징 기반, 픽셀 기반, RWRL 설정 전반에서 평균 점수를 향상시켰다(예: 특징에서 217에서 389로, 픽셀에서 108에서 202로, RWRL에서 195에서 295로).
추가로 더 많은 metaparameters를 자기 조정하면 성능이 향상되는 것을 보여주는 제거 연구; STACX는 일관되게 IMPALA 기준선을 능가한다.
STACX는 외부 하이퍼파라미터扰 perturbations에 강건하고 훈련 중 해석 가능한 메타매개변수 궤적을 보인다.
STACX는 21개의 자기 조정 하이퍼파라미터로 확장되며, 이전 연구 대비 더 많음에도 계산 오버헤드가 크게 증가하지 않는다.
STACX의 보조 헤드는 주로 픽셀 기반 DM Control에서 추가 이익을 제공하고, 특징 기반 설정에서는 보편적으로 그렇지 않다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.