Skip to main content
QUICK REVIEW

[논문 리뷰] Stochastic Gradient Methods with Layer-wise Adaptive Moments for Training of Deep Networks

Boris Ginsburg, Patrice Castonguay|arXiv (Cornell University)|2019. 05. 27.
Stochastic Gradient Optimization Techniques참고 문헌 39인용 수 88
한 줄 요약

NovoGrad는 계층별 그래디언트 정규화와 비합동 가중치 감소를 사용하는 적응형 SGD 방법으로, 시각 인지, 음성, 번역, 언어 모델링 전반에서 모멘텀을 가진 SGD 및 Adam/AdamW보다 동일하거나 더 잘 작동하며, 학습률(LR)과 초기화에 대한 강인성과 Adam의 메모리 사용량의 절반 수준을 보입니다.

ABSTRACT

We propose NovoGrad, an adaptive stochastic gradient descent method with layer-wise gradient normalization and decoupled weight decay. In our experiments on neural networks for image classification, speech recognition, machine translation, and language modeling, it performs on par or better than well tuned SGD with momentum and Adam or AdamW. Additionally, NovoGrad (1) is robust to the choice of learning rate and weight initialization, (2) works well in a large batch setting, and (3) has two times smaller memory footprint than Adam.

연구 동기 및 목표

  • 이미지 분류, 음성 인식, 기계 번역, 언어 모델링 전반에서 잘 작동하는 단일 최적화 도구를 개발한다.
  • 학습률 및 가중치 초기화에 대한 강건성 향상.
  • Adam에 비해 메모리 footprint를 줄이면서 성능을 유지한다.
  • 정규화 강화 및 대형 배치 학습 상황 지원을 강화한다.

제안 방법

  • 계층별 2차 모멘트를 도입하고 계층별 노름으로 그래디언트를 정규화한다.
  • 계층별 2차 모멘트로 나눈 그래디언트를 이용해 1차 모멘트를 업데이트하기 전에 정규화된 그래디언트에 비분리(decoupled) 가중치 감소를 더한다.
  • 가중치를 1차 모멘트로 업데이트하는 SGD+모멘텀 방식으로, 분리된 가중치 감소 항을 포함한다.
  • 안정성 개선에 대해 논의하고, 볼록-유사 설정에 대한 AMS-Grad와의 연결성을 제시한다.

실험 결과

연구 질문

  • RQ1NovoGrad가 다양한 심층 학습 작업에서 모멘텀이 있는 SGD 및 Adam/AdamW보다 동등하거나 우수한 성능을 달성할 수 있는가?
  • RQ2계층별 그래디언트 정규화가 원소별 정규화보다 학습률과 초기화에 더 강건한가?
  • RQ3분리된 가중치 감소가 NovoGrad의 정규화 및 일반화에 도움을 주는가?
  • RQ4대형 배치 학습에서 기존 최적화기와 비교해 NovoGrad의 성능은 어떠한가?
  • RQ5Adam에 비해 NovoGrad가 가지는 메모리 및 계산상의 이점은 무엇인가?

주요 결과

  • NovoGrad는 ImageNet, WMT’14 English–German 번역, LibriSpeech, WikiText-103 언어 모델링에서 SGD 모멘텀 및 Adam/AdamW를 상회하거나 동등하다.
  • NovoGrad는 학습률 및 가중치 초기화에 강건하며, 많은 설정에서 LR 워밍업 없이도 잘 작동한다.
  • 대형 배치 이미지 및 음성 작업에서 NovoGrad는 추가 트릭 없이도 경쟁력 있는 또는 우수한 정확도나 WER을 달성한다.
  • NovoGrad는 Adam의 메모리 사용량의 약 절반으로, 대규모 모델 학습에 도움을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.