QUICK REVIEW

[논문 리뷰] Metatrace: Online Step-size Tuning by Meta-gradient Descent for Reinforcement Learning Control.

Kenny Young, Baoxiang Wang|arXiv (Cornell University)|2018. 05. 10.

Reinforcement Learning in Robotics참고 문헌 9인용 수 5

한 줄 요약

Metatrace는 강화학습 제어에서 비정상 환경에서 학습을 안정화하기 위해 유인성 추적을 사용하여 온라인 단계 크기 조정을 위한 메타기울기 경사하강법을 제안한다. 선형 및 비선형 함수 근사 설정에서 모두 학습 속도를 향상시키고 초기 초모수에 대한 강건성을 높이며, 특히 비정상성에 있어서 유의미한 성능 향상을 이룬다.

ABSTRACT

Reinforcement learning (RL) has had many successes in both deep and shallow settings. In both cases, significant hyperparameter tuning is often required to achieve good performance. Furthermore, when nonlinear function approximation is used, non-stationarity in the state representation can lead to learning instability. A variety of techniques exist to combat this --- most notably large experience replay buffers or the use of multiple parallel actors. These techniques come at the cost of moving away from the online RL problem as it is traditionally formulated (i.e., a single agent learning online without maintaining a large database of training examples). Meta-learning can potentially help with both these issues by tuning hyperparameters online and allowing the algorithm to more robustly adjust to non-stationarity in a problem. This paper applies meta-gradient descent to derive a set of step-size tuning algorithms specifically for online RL control with eligibility traces. Our novel technique, Metatrace, makes use of an eligibility trace analogous to methods like $TD(\lambda)$. We explore tuning both a single scalar step-size and a separate step-size for each learned parameter. We evaluate Metatrace first for control with linear function approximation in the classic mountain car problem and then in a noisy, non-stationary version. Finally, we apply Metatrace for control with nonlinear function approximation in 5 games in the Arcade Learning Environment where we explore how it impacts learning speed and robustness to initial step-size choice. Results show that the meta-step-size parameter of Metatrace is easy to set, Metatrace can speed learning, and Metatrace can allow an RL algorithm to deal with non-stationarity in the learning task.

연구 동기 및 목표

온라인 강화학습에서 초모수 민감성, 특히 단계 크기 선택 문제를 해결한다.
학습 중 상태 표현이 변화하는 비정상 환경에서 학습 안정성을 향상시킨다.
큰 경험 재현 버퍼나 병렬 액터에 의존하지 않고도 온라인으로 적응 가능한 단계 크기 조정을 가능하게 한다.
학습 중에 활성화되는 유인성 추적을 사용하여 동적으로 단계 크기를 조정하는 메타학습 기반 방법을 개발한다.
선형 및 비선형 함수 근사 설정 모두에서 강건성과 효율성 향상을 입증한다.

제안 방법

강화학습 알고리즘의 학습 동역학을 미분함으로써 최적의 단계 크기를 학습하기 위해 메타기울기 경사하강법을 적용한다.
유인성 추적을 사용하여 궤적을 따라 기여도 할당을 전파하고, 궤적의 기대 수익을 최소화하는 메타목적을 도입한다.
메타목적의 기울기를 사용하여 단일 전역 단계 크기와 각 파라미터별 단계 크기의 업데이트 규칙을 유도한다.
TD(λ)와 유사한 유인성 추적을 사용하여 시간적 기여도 할당을 추적하고 효율적인 메타기울기 계산을 가능하게 한다.
관측된 학습 진전과 예측 오차에 기반하여 단계 크기를 업데이트하는 별도의 메타최적화기 유지한다.
Sarsa와 Q-학습과 같은 표준 가치 기반 강화학습 알고리즘에 메타단계 크기 조정을 통합하여 메타학습이 가능한 형태로 확장한다.

실험 결과

연구 질문

RQ1유인성 추적을 사용한 온라인 단계 크기 조정에 대해 메타기울기 경사하강법을 효과적으로 적용할 수 있는가?
RQ2고정된 단계 크기와 비교했을 때 Metatrace는 비정상 환경에서 학습 속도와 안정성에 어떻게 기여하는가?
RQ3비선형 함수 근사에서 초기 단계 크기 선택에 대한 민감도는 어느 정도 감소하는가?
RQ4메타학습을 통한 각 파라미터별 단계 크기 적응은 복잡한 제어 과제에서 더 빠른 수렴과 향상된 성능을 이끌 수 있는가?
RQ5기존의 경험 재현 버퍼를 사용하지 않는 환경에서, 특히 상태 분포가 변화하는 상황에서 Metatrace는 어떻게 성능을 발휘하는가?

주요 결과

Metatrace는 고정된 단계 크기와 비교해 고전적인 마운틴카 환경에서 학습 속도를 크게 향상시킨다.
소음이 많고 비정상적인 마운틴카 환경에서, 고정된 단계 크기로는 실패하거나 발산하는 상황에서도 Metatrace는 안정적인 학습을 유지한다.
아케이드 학습 환경에서 초기 단계 크기 선택에 대한 민감도가 감소하여 다양한 설정에서 신뢰할 수 있는 성능을 제공한다.
Metatrace의 메타단계 크기 초모수는 설정하기 쉬우며, 광범위한 작업에서 광범위한 튜닝 없이도 효과적인 성능을 유지한다.
Metatrace는 비선형 함수 근사 설정에서도 강건한 학습을 가능하게 하여 5개의 아케이드 게임에서 수렴 속도와 안정성을 향상시킨다.
Metatrace의 각 파라미터별 단계 크기 적응은 스칼라 단계 크기 조정보다 더 빠른 정책 수렴과 향상된 최종 성능을 이끈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.