[논문 리뷰] Neural Optimizer Search with Reinforcement Learning
이 논문은 RNN 컨트롤러를 학습시켜 DSL에서 업데이트 방정식을 생성하도록 하여 신경망 최적화기(업데이트 규칙)를 자동으로 발견하고, PPO 기반 강화 학습으로 이를 최적화하며, 작업 간 전달 가능성을 보인다.
We present an approach to automate the process of discovering optimization methods, with a focus on deep learning architectures. We train a Recurrent Neural Network controller to generate a string in a domain specific language that describes a mathematical update equation based on a list of primitive functions, such as the gradient, running average of the gradient, etc. The controller is trained with Reinforcement Learning to maximize the performance of a model after a few epochs. On CIFAR-10, our method discovers several update rules that are better than many commonly used optimizers, such as Adam, RMSProp, or SGD with and without Momentum on a ConvNet model. We introduce two new optimizers, named PowerSign and AddSign, which we show transfer well and improve training on a variety of different tasks and architectures, including ImageNet classification and Google's neural machine translation system.
연구 동기 및 목표
- 딥 러닝용 최적화 업데이트 규칙의 설계 동기 부여 및 자동화.
- 업데이트 규칙을 도메인 특정 언어(DSL)로 표현해 유연한 구성을 가능하게 함.
- 검증 성능을 바탕으로 업데이트 규칙을 강화 학습으로 최적화.
- 발견된 최적화기가 구조와 작업 across에 걸쳐 전달 가능함을 입증.
- 전통적 옵티마이저에 비해 더 빠르고 메모리 효율적인 대안을 제공함.
제안 방법
- 업데이트 규칙을 설명하는 DSL 문자열을 출력하도록 순환 신경망 컨트롤러를 학습시킨다.
- 샘플링된 규칙으로 학습된 대상 모델의 검증 정확도를 최대화하기 위해 PPO(근접 정책 최적화)를 사용한다.
- 피연자, 단항 함수, 이항 함수를 인코딩하여 업데이트 방정식을 형성하는 DSL을 구성한다.
- 평가를 위한 작은 ConvNet과 신호로서 5 에폭 학습을 이용하여 검색을 가속화하는 분산 학습 설정을 적용한다.
- PowerSign 및 AddSign과 선형 코사인 감쇠(linear cosine decay) 스케줄과 같은 규칙을 식별하고 분석한다.
실험 결과
연구 질문
- RQ1RL 기반 컨트롤러가 신경망에 대해 효과적인 업데이트 규칙을 자동으로 발견할 수 있는가?
- RQ2발견된 업데이트 규칙이 더 큰 모델 및 다른 작업으로 효과적으로 전달되는가?
- RQ3검색에서 나타나는 새로운 업데이트 규칙과 학습률 스케줄은 무엇이며, SGD, Momentum, RMSProp, Adam과 어떻게 비교되는가?
주요 결과
- 컨트롤러는 CIFAR-10의 작은 ConvNet에서 Adam, RMSProp, SGD( Momentum 포함 여부)보다 우수할 수 있는 업데이트 규칙을 발견한다.
- PowerSign와 AddSign의 두 가지 주요 계통이 효과적인 업데이트 규칙으로 나타나 CIFAR-10의 Wide ResNet, ImageNet, GNMT, PTB 언어 모델링과 같은 더 큰 작업으로 전달되며 이자에 따라 이익이 달라진다.
- 선형 코사인 감소(nil 포함 변형) 규칙은 종종 더 빠른 수렴을 가능하게 하고 초기 학습률을 더 크게 설정할 수 있게 한다.
- 발견된 규칙은 파라미터당 하나의 실행 평균을 사용하기 때문에 Adam보다 더 메모리 효율적일 수 있다.
- 이 접근 방식은 ImageNet의 탑-1/탑-5 및 GNMT BLEU에서 표준 옵티마이저를 해당 파이프라인에 대체할 때 측정 가능한 개선을 보여준다.
- 학습에서 얻은 규칙은 모호한 하이퍼파라미터 변화에 대해 견고하며 특정 설정에서 SGD로 보간될 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.