QUICK REVIEW

[논문 리뷰] Neural Optimizer Search with Reinforcement Learning

Irwan Bello, Barret Zoph|arXiv (Cornell University)|2017. 09. 21.

Advanced Neural Network Applications참고 문헌 33인용 수 201

한 줄 요약

이 논문은 RNN 컨트롤러를 학습시켜 DSL에서 업데이트 방정식을 생성하도록 하여 신경망 최적화기(업데이트 규칙)를 자동으로 발견하고, PPO 기반 강화 학습으로 이를 최적화하며, 작업 간 전달 가능성을 보인다.

ABSTRACT

We present an approach to automate the process of discovering optimization methods, with a focus on deep learning architectures. We train a Recurrent Neural Network controller to generate a string in a domain specific language that describes a mathematical update equation based on a list of primitive functions, such as the gradient, running average of the gradient, etc. The controller is trained with Reinforcement Learning to maximize the performance of a model after a few epochs. On CIFAR-10, our method discovers several update rules that are better than many commonly used optimizers, such as Adam, RMSProp, or SGD with and without Momentum on a ConvNet model. We introduce two new optimizers, named PowerSign and AddSign, which we show transfer well and improve training on a variety of different tasks and architectures, including ImageNet classification and Google's neural machine translation system.

연구 동기 및 목표

딥 러닝용 최적화 업데이트 규칙의 설계 동기 부여 및 자동화.
업데이트 규칙을 도메인 특정 언어(DSL)로 표현해 유연한 구성을 가능하게 함.
검증 성능을 바탕으로 업데이트 규칙을 강화 학습으로 최적화.
발견된 최적화기가 구조와 작업 across에 걸쳐 전달 가능함을 입증.
전통적 옵티마이저에 비해 더 빠르고 메모리 효율적인 대안을 제공함.

제안 방법

업데이트 규칙을 설명하는 DSL 문자열을 출력하도록 순환 신경망 컨트롤러를 학습시킨다.
샘플링된 규칙으로 학습된 대상 모델의 검증 정확도를 최대화하기 위해 PPO(근접 정책 최적화)를 사용한다.
피연자, 단항 함수, 이항 함수를 인코딩하여 업데이트 방정식을 형성하는 DSL을 구성한다.
평가를 위한 작은 ConvNet과 신호로서 5 에폭 학습을 이용하여 검색을 가속화하는 분산 학습 설정을 적용한다.
PowerSign 및 AddSign과 선형 코사인 감쇠(linear cosine decay) 스케줄과 같은 규칙을 식별하고 분석한다.

실험 결과

연구 질문

RQ1RL 기반 컨트롤러가 신경망에 대해 효과적인 업데이트 규칙을 자동으로 발견할 수 있는가?
RQ2발견된 업데이트 규칙이 더 큰 모델 및 다른 작업으로 효과적으로 전달되는가?
RQ3검색에서 나타나는 새로운 업데이트 규칙과 학습률 스케줄은 무엇이며, SGD, Momentum, RMSProp, Adam과 어떻게 비교되는가?

주요 결과

컨트롤러는 CIFAR-10의 작은 ConvNet에서 Adam, RMSProp, SGD( Momentum 포함 여부)보다 우수할 수 있는 업데이트 규칙을 발견한다.
PowerSign와 AddSign의 두 가지 주요 계통이 효과적인 업데이트 규칙으로 나타나 CIFAR-10의 Wide ResNet, ImageNet, GNMT, PTB 언어 모델링과 같은 더 큰 작업으로 전달되며 이자에 따라 이익이 달라진다.
선형 코사인 감소(nil 포함 변형) 규칙은 종종 더 빠른 수렴을 가능하게 하고 초기 학습률을 더 크게 설정할 수 있게 한다.
발견된 규칙은 파라미터당 하나의 실행 평균을 사용하기 때문에 Adam보다 더 메모리 효율적일 수 있다.
이 접근 방식은 ImageNet의 탑-1/탑-5 및 GNMT BLEU에서 표준 옵티마이저를 해당 파이프라인에 대체할 때 측정 가능한 개선을 보여준다.
학습에서 얻은 규칙은 모호한 하이퍼파라미터 변화에 대해 견고하며 특정 설정에서 SGD로 보간될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.