QUICK REVIEW

[논문 리뷰] An Adaptive and Momental Bound Method for Stochastic Learning

Jianbang Ding, Xuancheng Ren|arXiv (Cornell University)|2019. 10. 27.

Stochastic Gradient Optimization Techniques참고 문헌 22인용 수 28

한 줄 요약

이 논문은 Adam의 학습률에 적응형이고 모멘텀 기반의 상한을 적용하여 딥 네ural 네트워크에서 학습을 안정화시키는 새로운 적응 최적화 방법 AdaMod을 제안한다. 지수 이동 평균을 통해 적응형 학습률의 과도한 초기 학습률을 부드럽게 다듬음으로써, 학습률 웜업이 필요 없이도 우수한 수렴성과 일반화 성능을 달성하며, 특히 DenseNet과 Transformer와 같은 복잡한 아키텍처에서 뛰어난 성능을 발휘한다.

ABSTRACT

Training deep neural networks requires intricate initialization and careful selection of learning rates. The emergence of stochastic gradient optimization methods that use adaptive learning rates based on squared past gradients, e.g., AdaGrad, AdaDelta, and Adam, eases the job slightly. However, such methods have also been proven problematic in recent studies with their own pitfalls including non-convergence issues and so on. Alternative variants have been proposed for enhancement, such as AMSGrad, AdaShift and AdaBound. In this work, we identify a new problem of adaptive learning rate methods that exhibits at the beginning of learning where Adam produces extremely large learning rates that inhibit the start of learning. We propose the Adaptive and Momental Bound (AdaMod) method to restrict the adaptive learning rates with adaptive and momental upper bounds. The dynamic learning rate bounds are based on the exponential moving averages of the adaptive learning rates themselves, which smooth out unexpected large learning rates and stabilize the training of deep neural networks. Our experiments verify that AdaMod eliminates the extremely large learning rates throughout the training and brings significant improvements especially on complex networks such as DenseNet and Transformer, compared to Adam. Our implementation is available at: https://github.com/lancopku/AdaMod

연구 동기 및 목표

Adam과 같은 적응 최적화 방법의 초기 학습 단계에서 매우 큰 학습률로 인해 발생하는 불안정성 문제를 해결하기 위해.
Adam에서의 수렴 불량과 열악한 일반화 성능이 초기 단계의 불안정하고 고도의 학습률에 기인한다는 것을 규명하기 위해.
기존의 히우리스틱 웜업 스케줄에 의존하지 않고도 과거 기울기 통계의 장기 기억을 제공하는 방법을 개발하기 위해.
다양한 딥 러닝 모델, 특히 Transformer와 DenseNet과 같은 복잡한 아키텍처에서 학습 안정성과 일반화 성능을 향상시키기 위해.
최적화가 초기 학습률 선택에 민감하지 않게 하여 수동 웜업 튜닝이 필요 없도록 하기 위해.

제안 방법

Adam이 계산한 적응형 학습률에 지수 이동 평균(EMA)을 적용하여 부드럽고 모멘텀 기반의 상한을 생성하기 위해.
적응형 학습률의 EMA를 원래 학습률의 동적 상한으로 사용하여 학습률이 과도하게 커지는 것을 방지하기 위해.
EMA의 감쇠 비율을 제어하는 새로운 하이퍼파라미터 β₃를 도입하여 이전 기울기 통계의 장기 기억을 가능하게 하기 위해.
Adam 업데이트 규칙을 수정하여 원래 학습률 ηₜ를 min(ηₜ, ŷₜ)로 대체함으로써, 제한된 안정적인 업데이트를 보장하기 위해. 여기서 ŷₜ는 ηₜ의 EMA이다.
기존 Adam 구성 요소를 재사용하면서도 모멘텀 기반 상한 메커니즘을 통해 최소한의 오버헤드로 계산 효율성을 유지하기 위해.
수동 조작이나 웜업 스케줄이 필요 없이 종단 간 학습 안정성을 확보하기 위해 학습률 변동성을 부드럽게 하기 위해.

실험 결과

연구 질문

RQ1왜 Adam과 같은 적응 최적화 방법이 특히 복잡한 모델에서 초기 학습 단계에서 수렴하지 못하는가?
RQ2학습 시작 단계에서 매우 큰 학습률로 인한 불안정성을 웜업에 의존하지 않고 체계적으로 해결할 수 있는가?
RQ3적응형 학습률에 모멘텀 기반 상한을 도입할 경우 딥 네트워크의 수렴성과 일반화 성능에 어떤 영향을 미치는가?
RQ4AdaMod는 초기 학습률 선택에 대해 얼마나 많은 하이퍼파라미터 민감도를 감소시킬 수 있는가?
RQ5AdaMod는 추가 튜닝 없이도 Transformer와 DenseNet과 같은 다양한 아키텍처에서 Adam보다 더 뛰어난 성능을 낼 수 있는가?

주요 결과

AdaMod는 Adam에서 수렴 불량을 유발하는 초기 몇 번의 학습 스텝에서 매우 큰 학습률이 발생하는 것을 효과적으로 제거한다.
IWSLT’14 De-En 번역 작업에서, 웜업 없이 Adam은 학습 손실이 약 9.5 주변에서 진동하며 발산하는 반면, AdaMod는 안정적인 수렴과 낮은 손실을 달성한다.
CIFAR-10에서 ResNet-34를 사용할 경우, AdaMod는 초기 학습률(α ∈ {0.001, 0.01, 0.1})의 넓은 범위에서 일관된 테스트 정확도를 유지하여 강건성을 입증한다.
IWSLT’14에서 Transformer-small를 사용할 경우, β₃ = 0.9999로 설정한 AdaMod는 Adam과 웜업이 적용된 Adam을 모두 능가하며 최고의 학습 손실과 일반화 성능을 달성한다.
다양한 작업과 모델에서 학습률 웜업이 필요 없게 되었으며, 특히 복잡한 아키텍처에서 유의미한 이점을 제공한다.
AdaMod는 추가 하이퍼파라미터 튜닝 없이도 DenseNet과 Transformer와 같은 복잡한 모델에서 최신 기술 수준의 성능을 달성하며, 기존 Adam 대비 뚜렷한 향상을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.