QUICK REVIEW

[논문 리뷰] Self-Tuning Deep Reinforcement Learning

Tom Zahavy, Zhongwen Xu|arXiv (Cornell University)|2020. 02. 28.

Reinforcement Learning in Robotics참고 문헌 10인용 수 8

한 줄 요약

이 논문은 학습 중에 하이퍼파rameter를 자동으로 튜닝할 수 있도록 미분 가능한 교차검증과 메타기울기를 사용하는 딥 강화학습 방법인 Self-Tuning Actor Critic (STAC)을 제안한다. STAC은 계산 자원 증가 없이 샘플 효율성을 향상시키며, 2억 프레임 동안 Atari 2600에서 중앙값 인간 정규화 점수를 243%에서 364%로 향상시킨다.

ABSTRACT

Reinforcement learning (RL) algorithms often require expensive manual or automated hyperparameter searches in order to perform well on a new domain. This need is particularly acute in modern deep RL architectures which often incorporate many modules and multiple loss functions. In this paper, we take a step towards addressing this issue by using metagradients (Xu et al., 2018) to tune these hyperparameters via differentiable cross validation, whilst the agent interacts with and learns from the environment. We present the Self-Tuning Actor Critic (STAC) which uses this process to tune the hyperparameters of the usual loss function of the IMPALA actor critic agent(Espeholt et. al., 2018), to learn the hyperparameters that define auxiliary loss functions, and to balance trade offs in off policy learning by introducing and adapting the hyperparameters of a novel leaky V-trace operator. The method is simple to use, sample efficient and does not require significant increase in compute. Ablative studies show that the overall performance of STAC improves as we adapt more hyperparameters. When applied to 57 games on the Atari 2600 environment over 200 million frames our algorithm improves the median human normalized score of the baseline from 243% to 364%.

연구 동기 및 목표

복잡한 아키텍처와 다중 손실 함수를 포함한 딥 강화학습에서 수동 또는 자동 하이퍼파rameter 튜닝의 필요성을 줄이기 위해.
학습 중 하이퍼파rameter의 자동 적응을 가능하게 하여 샘플 효율성과 성능을 향상시키기 위해.
메인 및 보조 손실 함수에 대한 최적의 하이퍼파rameter를 학습함으로써 IMPALA 액터크리틱 프레임워크를 확장하기 위해.
오프-폴리시 학습의 트레이드오프를 균형 잡는 데 유용한 가속화 가능한 하이퍼파라미터를 가진 새로운 리키 V-trace 연산자 도입 및 적용하기 위해.
다양한 환경에서 더 많은 하이퍼파라미터를 튜닝할 경우 일관된 성능 향상이 이루어지는지 입증하기 위해.

제안 방법

메타기울기를 사용하여 하이퍼파라미터에 대한 검증 손실의 기울기를 계산함으로써 엔드 투 엔드 하이퍼파라미터 최적화를 가능하게 한다.
학습 중에 별도의 검증 에피소드가 필요 없이 하이퍼파라미터 성능을 평가하기 위해 미분 가능한 교차검증을 적용한다.
오프-폴리시 보정을 적응형 하이퍼파라미터를 통해 조정하는 가속화 가능한 리키 V-trace 연산자를 도입한다.
메인 손실 함수, 보조 손실 함수, V-trace 연산자의 하이퍼파라미터를 통합된 학습 루프 내에서 동시에 튜닝한다.
하이퍼파라미터 탐색을 위한 추가적인 환경 롤아웃이나 계산 오버헤드 없이 샘플 효율성을 유지한다.
메타최적화 루프를 활용하여, 하이퍼파라미터를 미분 가능한 검증 지표 성능 기반으로 업데이트한다.

실험 결과

연구 질문

RQ1딥 강화학습에서 하이퍼파라미터를 미분 가능한 방법을 사용해 학습 중에 자동으로 튜닝할 수 있는가?
RQ2다양한 하이퍼파라미터를 자가 튜닝하면 복잡한 RL 에이전트의 샘플 효율성과 최종 성능이 향상되는가?
RQ3적응형 하이퍼파라미터를 가진 새로운 리키 V-trace 연산자가 오프-폴리시 학습의 안정성과 성능을 향상시킬 수 있는가?
RQ4다양한 환경에서 자가 튜닝된 에이전트의 성능은 고정된 하이퍼파라미터를 가진 베이스라인과 비교해 어떻게 되는가?
RQ5튜닝 가능한 하이퍼파라미터의 수를 늘릴 경우 측정 가능한 성능 향상이 발생하는가?

주요 결과

STAC는 2억 프레임 동안 57개의 게임에서 Atari 2600의 중앙값 인간 정규화 점수를 243%에서 364%로 향상시켰다.
성능 향상은 환경 간에 일관되며, 더 많은 하이퍼파라미터를 튜닝할수록 개선이 관찰된다.
계산 자원 증가 없이도 성능 향상을 달성했으며, 추가적인 환경 상호작용이 필요로 하지 않는다.
아블레이티브 연구를 통해 더 많은 하이퍼파라미터를 튜닝할수록 성능 향상이 더 크게 발생함을 확인하여, 이 방법의 확장성에 대한 타당성을 입증한다.
미분 가능한 교차검증의 사용은 학습 중 안정적이고 효과적인 하이퍼파라미터 업데이트를 가능하게 한다.
자기 튜닝된 리키 V-trace 연산자는 오프-폴리시 학습의 트레이드오프를 효과적으로 균형 잡으며, 샘플 효율성 향상에 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.