Skip to main content
QUICK REVIEW

[논문 리뷰] Quasi-hyperbolic momentum and Adam for deep learning

Jerry Ma, Denis Yarats|arXiv (Cornell University)|2018. 10. 16.
Stochastic Gradient Optimization Techniques참고 문헌 45인용 수 48
한 줄 요약

Quasi-hyperbolic Momentum(QHM)와 그 Adam 변형(QHAdam)을 소개하고, 단순한 두 항 보간으로 일반 SGD 및 모멘텀/Adam 구성요소 사이의 간격을 조정하며, 다양한 딥러닝 작업에서 안정성과 성능이 향상됨을 보여준다.

ABSTRACT

Momentum-based acceleration of stochastic gradient descent (SGD) is widely used in deep learning. We propose the quasi-hyperbolic momentum algorithm (QHM) as an extremely simple alteration of momentum SGD, averaging a plain SGD step with a momentum step. We describe numerous connections to and identities with other algorithms, and we characterize the set of two-state optimization algorithms that QHM can recover. Finally, we propose a QH variant of Adam called QHAdam, and we empirically demonstrate that our algorithms lead to significantly improved training in a variety of settings, including a new state-of-the-art result on WMT16 EN-DE. We hope that these empirical results, combined with the conceptual and practical simplicity of QHM and QHAdam, will spur interest from both practitioners and researchers. Code is immediately available.

연구 동기 및 목표

  • 확률적 최적화에 대한 모멘텀 기반 가속의 동기를 부여하고 SGD 업데이트의 분산 감소를 다룬다.
  • Plain SGD와 모멘텀 사이의 간단한 보간으로 QHM을 도입하여 업데이트의 노후화 제어.
  • QHM이 NAG, PID, SNV, AccSGD, Robust Momentum, 및 Triple Momentum 등 기존 최적화 알고리즘과의 관계를 회복하거나 밀접하게 관련되며 회수 가능한 알고리즘 집합을 특징짓는다.
  • QHAdam을 QHM 기반의 Adam 변형으로 도입하고 업데이트 규칙을 제시하며 ν1=ν2=1인 경우 Adam으로 회수되고 다른 설정에서 RMSProp/NAdam에 근접함을 보여준다.
  • 실용적인 튜닝 가이드라인을 제공하고 QHM/QHAdam의 채택을 위한 오픈 소스 코드를 제시한다.

제안 방법

  • QHM 업데이트 정의: g_{t+1} ㅣ β g_t + (1-β) ∇L̂_t(θ_t) 및 θ_{t+1} ㅣ θ_t - α[(1-ν)∇L̂_t(θ_t) + ν g_{t+1}].
  • ν를 SGD와 모멘텀을 혼합하는 즉시 할인으로 해석하는 것을 설명한다.
  • QHM을 NAG, PID, SNV, AccSGD, Robust Momentum, 및 Triple Momentum과 연결하고 회수 및 관계를 보여준다.
  • Adam의 모멘트 추정치를 준-하이퍼볼릭 항으로 대체하여 QHAdam을 도입하고 업데이트 규칙을 자세히 제시하며 ν1=ν2=1일 때 Adam으로 회수되고 다른 설정에서 RMSProp/NAdam에 근접함을 보인다.
  • 실용적인 튜닝 가이드라인을 제공하고 수렴성/강건성에 대한 함의를 실증 실험으로 뒷받침한다.

실험 결과

연구 질문

  • RQ1QHM이 표준 DL 작업에서 전통적 모멘텀 및 NAG에 비해 최적화 효율성 및 안정성을 향상시킬 수 있는가?
  • RQ2즉시 할인율 ν가 확률적 설정에서 모멘텀의 분산/노후에 어떤 영향을 미치는가?
  • RQ3QHM과 다른 두 상태 최적화 알고리즘 간의 관계는 무엇이며 QHM이 이를 모두 효율적으로 회수할 수 있는가?
  • RQ4QHAdam 변형이 다양한 도메인에서 안정성과 성능 측면에서 Adam보다 실용적 이점을 제공하는가?

주요 결과

  • QHM 및 QHAdam은 다수의 작업에서 vanilla 모멘텀/NAG/Adam에 비해 학습 및 검증 성능을 일관되게 향상시킨다.
  • ν=0.7 및 β=0.999의 기본 구성이 NAG 또는 Adam의 최적화된 매개변수보다 종종 더 뛰어나다.
  • 이미지 번역(WMT16 EN-DE)에서 QHAdam은 BLEU 29.45의 최상 성과와 안정성 향상을 보인다.
  • 사례 연구에서 QHM/QHAdam을 사용할 때 이미지 인식, 언어 모델링, 강화학습 및 NMT에서 더 빠른 수렴 또는 더 강력한 성능을 보인다.
  • QH 알고리즘은 계산적으로 저비용이고 개념적으로 단순하며 실제 튜닝 가이드가 제공된다.
  • QHM/QHAdam의 코드가 공개되어 있다(qhoptim 레포지토리).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.