QUICK REVIEW

[논문 리뷰] Quasi-hyperbolic momentum and Adam for deep learning

Jerry Ma, Denis Yarats|arXiv (Cornell University)|2018. 10. 16.

Stochastic Gradient Optimization Techniques참고 문헌 45인용 수 48

한 줄 요약

Quasi-hyperbolic Momentum(QHM)와 그 Adam 변형(QHAdam)을 소개하고, 단순한 두 항 보간으로 일반 SGD 및 모멘텀/Adam 구성요소 사이의 간격을 조정하며, 다양한 딥러닝 작업에서 안정성과 성능이 향상됨을 보여준다.

ABSTRACT

Momentum-based acceleration of stochastic gradient descent (SGD) is widely used in deep learning. We propose the quasi-hyperbolic momentum algorithm (QHM) as an extremely simple alteration of momentum SGD, averaging a plain SGD step with a momentum step. We describe numerous connections to and identities with other algorithms, and we characterize the set of two-state optimization algorithms that QHM can recover. Finally, we propose a QH variant of Adam called QHAdam, and we empirically demonstrate that our algorithms lead to significantly improved training in a variety of settings, including a new state-of-the-art result on WMT16 EN-DE. We hope that these empirical results, combined with the conceptual and practical simplicity of QHM and QHAdam, will spur interest from both practitioners and researchers. Code is immediately available.

연구 동기 및 목표

확률적 최적화에 대한 모멘텀 기반 가속의 동기를 부여하고 SGD 업데이트의 분산 감소를 다룬다.
Plain SGD와 모멘텀 사이의 간단한 보간으로 QHM을 도입하여 업데이트의 노후화 제어.
QHM이 NAG, PID, SNV, AccSGD, Robust Momentum, 및 Triple Momentum 등 기존 최적화 알고리즘과의 관계를 회복하거나 밀접하게 관련되며 회수 가능한 알고리즘 집합을 특징짓는다.
QHAdam을 QHM 기반의 Adam 변형으로 도입하고 업데이트 규칙을 제시하며 ν1=ν2=1인 경우 Adam으로 회수되고 다른 설정에서 RMSProp/NAdam에 근접함을 보여준다.
실용적인 튜닝 가이드라인을 제공하고 QHM/QHAdam의 채택을 위한 오픈 소스 코드를 제시한다.

제안 방법

QHM 업데이트 정의: g_{t+1} ㅣ β g_t + (1-β) ∇L̂_t(θ_t) 및 θ_{t+1} ㅣ θ_t - α[(1-ν)∇L̂_t(θ_t) + ν g_{t+1}].
ν를 SGD와 모멘텀을 혼합하는 즉시 할인으로 해석하는 것을 설명한다.
QHM을 NAG, PID, SNV, AccSGD, Robust Momentum, 및 Triple Momentum과 연결하고 회수 및 관계를 보여준다.
Adam의 모멘트 추정치를 준-하이퍼볼릭 항으로 대체하여 QHAdam을 도입하고 업데이트 규칙을 자세히 제시하며 ν1=ν2=1일 때 Adam으로 회수되고 다른 설정에서 RMSProp/NAdam에 근접함을 보인다.
실용적인 튜닝 가이드라인을 제공하고 수렴성/강건성에 대한 함의를 실증 실험으로 뒷받침한다.

실험 결과

연구 질문

RQ1QHM이 표준 DL 작업에서 전통적 모멘텀 및 NAG에 비해 최적화 효율성 및 안정성을 향상시킬 수 있는가?
RQ2즉시 할인율 ν가 확률적 설정에서 모멘텀의 분산/노후에 어떤 영향을 미치는가?
RQ3QHM과 다른 두 상태 최적화 알고리즘 간의 관계는 무엇이며 QHM이 이를 모두 효율적으로 회수할 수 있는가?
RQ4QHAdam 변형이 다양한 도메인에서 안정성과 성능 측면에서 Adam보다 실용적 이점을 제공하는가?

주요 결과

QHM 및 QHAdam은 다수의 작업에서 vanilla 모멘텀/NAG/Adam에 비해 학습 및 검증 성능을 일관되게 향상시킨다.
ν=0.7 및 β=0.999의 기본 구성이 NAG 또는 Adam의 최적화된 매개변수보다 종종 더 뛰어나다.
이미지 번역(WMT16 EN-DE)에서 QHAdam은 BLEU 29.45의 최상 성과와 안정성 향상을 보인다.
사례 연구에서 QHM/QHAdam을 사용할 때 이미지 인식, 언어 모델링, 강화학습 및 NMT에서 더 빠른 수렴 또는 더 강력한 성능을 보인다.
QH 알고리즘은 계산적으로 저비용이고 개념적으로 단순하며 실제 튜닝 가이드가 제공된다.
QHM/QHAdam의 코드가 공개되어 있다(qhoptim 레포지토리).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.