Skip to main content
QUICK REVIEW

[논문 리뷰] AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients

Juntang Zhuang, Tommy Tang|arXiv (Cornell University)|2020. 10. 14.
Generative Adversarial Networks and Image Synthesis인용 수 219
한 줄 요약

AdaBelief는 관찰된 기울기에 대한 믿음을 측정하여 매 매개변수의 스텝사이즈를 적응시키고, 빠른 수렴, 좋은 일반화 및 학습 안정성을 달성한다.

ABSTRACT

Most popular optimizers for deep learning can be broadly categorized as adaptive methods (e.g. Adam) and accelerated schemes (e.g. stochastic gradient descent (SGD) with momentum). For many models such as convolutional neural networks (CNNs), adaptive methods typically converge faster but generalize worse compared to SGD; for complex settings such as generative adversarial networks (GANs), adaptive methods are typically the default because of their stability.We propose AdaBelief to simultaneously achieve three goals: fast convergence as in adaptive methods, good generalization as in SGD, and training stability. The intuition for AdaBelief is to adapt the stepsize according to the "belief" in the current gradient direction. Viewing the exponential moving average (EMA) of the noisy gradient as the prediction of the gradient at the next time step, if the observed gradient greatly deviates from the prediction, we distrust the current observation and take a small step; if the observed gradient is close to the prediction, we trust it and take a large step. We validate AdaBelief in extensive experiments, showing that it outperforms other methods with fast convergence and high accuracy on image classification and language modeling. Specifically, on ImageNet, AdaBelief achieves comparable accuracy to SGD. Furthermore, in the training of a GAN on Cifar10, AdaBelief demonstrates high stability and improves the quality of generated samples compared to a well-tuned Adam optimizer. Code is available at https://github.com/juntang-zhuang/Adabelief-Optimizer

연구 동기 및 목표

  • GAN과 같은 도전적인 설정에서 적응형 방법의 빠른 수렴과 우수한 일반화 및 안정성을 결합하도록 동기를 부여합니다.
  • gradient 예측 오차를 사용하여 스텝사이즈를 조정하는 Adam 유래 옵티마이저로서 AdaBelief를 제안합니다.
  • 볼록 및 비볼록 영역에서 이론적 수렴 분석을 제공합니다.
  • 이미지 분류, 언어 모델링 및 GAN에서 AdaBelief를 실험적으로 검증하여 향상된 성능과 안정성을 보입니다.

제안 방법

  • 업데이트가 m_t / sqrt(v_t) 대신 m_t / sqrt(s_t)를 사용하는 Adam의 변형으로 AdaBelief를 정의합니다.
  • 여기에서 m_t는 기울기의 EMA이고 v_t는 g_t^2의 EMA이며, s_t는 (g_t - m_t)^2의 EMA입니다.
  • m_t와 s_t를 편향 보정하고, 편향 보정된 s_t의 제곱근(여기에 epsilon를 더함)을 사용하여 볼록 집합으로의 투영을 통해 매개변수를 업데이트합니다.
  • 1/sqrt(s_t)를 현재 기울기 관찰에 대한 “믿음”으로 해석하고, 관찰이 예측과 일치하면 스텝을 증가시키고, 벗어나면 감소시킵니다.
  • AdaBelief가 곡률 정보를 포착하고 기울기 부호와 크기에 따라 업데이트를 구분하는 직관과 시각적 예를 제공합니다.
  • 볼록 및 비볼록 확률적 최적화 케이스에 대한 수렴 분석을 제공합니다.

실험 결과

연구 질문

  • RQ1AdaBelief가 적응형 방법의 빠른 수렴을 유지하되 SGD에 비슷한 일반화를 향상시킬 수 있는가?
  • RQ2GAN 및 기타 도전적 설정에서 학습 안정성을 제공하면서도 경쟁력 있는 정확도를 유지할 수 있는가?
  • RQ3볼록 및 비볼록 최적화에서 이론적으로 및 경험적으로 AdaBelief의 성능은 어떠한가?
  • RQ4이미지 분류 및 언어 모델링과 같은 실제 작업에서 믿음 기반 스케일링을 사용함으로써 어떤 실용적 이점이 생기는가?

주요 결과

  • AdaBelief는 이미지 분류 작업에서 Adam에 필적하는 빠른 수렴과 SGD와 유사한 일반화를 달성한다.
  • AdaBelief는 CIFAR-10에서 작은 생성기와 큰 생성기 모두를 사용한 GAN 학습에서 Adam보다 더 나은 학습 안정성과 샘플 품질을 보여준다.
  • ImageNet에서 AdaBelief는 Adam 스타일 기본값을 사용할 때 SGD에 비슷한 정확도를 달성하고, 일부 적응형 방법에서 보이는 일반화 격차를 줄인다.
  • 언어 모델링 전반에서 AdaBelief는 경쟁 옵티마이저들보다 개선된 perplexities를 산출한다.
  • GAN 벤치마크(WGAN, WGAN-GP)에서 AdaBelief는 여러 베이스라인보다 더 낮은 FID 점수를 달성하여 이미지 충실도와 다양성이 더 높음을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.