QUICK REVIEW

[논문 리뷰] Closing the Generalization Gap of Adaptive Gradient Methods in Training Deep Neural Networks

Jinghui Chen, Dongruo Zhou|arXiv (Cornell University)|2018. 06. 18.

Stochastic Gradient Optimization Techniques참고 문헌 43인용 수 90

한 줄 요약

Padam은 부분적으로 적응하는 모멘텀 방법으로 Adam/Amsgrad와 SGD-Momentum을 통합하여, 벤치마크에서 일반화와 SGD를 따라잡는 빠른 수렴을 달성합니다.

ABSTRACT

Adaptive gradient methods, which adopt historical gradient information to automatically adjust the learning rate, despite the nice property of fast convergence, have been observed to generalize worse than stochastic gradient descent (SGD) with momentum in training deep neural networks. This leaves how to close the generalization gap of adaptive gradient methods an open problem. In this work, we show that adaptive gradient methods such as Adam, Amsgrad, are sometimes "over adapted". We design a new algorithm, called Partially adaptive momentum estimation method, which unifies the Adam/Amsgrad with SGD by introducing a partial adaptive parameter $p$, to achieve the best from both worlds. We also prove the convergence rate of our proposed algorithm to a stationary point in the stochastic nonconvex optimization setting. Experiments on standard benchmarks show that our proposed algorithm can maintain a fast convergence rate as Adam/Amsgrad while generalizing as well as SGD in training deep neural networks. These results would suggest practitioners pick up adaptive gradient methods once again for faster training of deep neural networks.

연구 동기 및 목표

Adam 및 Amsgrad와 같은 적응적 그래디언트 방법이 모멘텀을 가진 SGD에 비해 일반화 격차를 보이는 것을 동기화합니다.
적응성과 일반화를 균형 잡기 위한 부분적 적응 모멘텀 방법 Padam을 제안합니다.
Padam의 확률적 비볼록 최적화에서의 수렴 분석을 제공합니다.
표준 벤치마크(CIFAR-10, ImageNet, Penn Treebank)에서 Padam을 실험적으로 평가하여 일반화 및 수렴을 비교합니다.
딥 러닝 학습에서 최적화 알고리즘 선택의 실용적 함의를 논의합니다.

제안 방법

두 번째 모멘트 정규화에 부분적 적응 지수 p를 추가하여 SGD-Momentum(p=0)과 Amsgrad(p=1/2) 사이를 보간합니다.
업데이트 규칙: m_t = β1 m_{t-1} + (1−β1) g_t; v_t = β2 v_{t-1} + (1−β2) g_t^2; v̂_t = max(v̂_{t-1}, v_t); x_{t+1} = x_t − α_t m_t / v̂_t^p.
확률적 비볼록 최적화에서 Padam의 수렴 보장을 제공하며, 속도는 E[||∇f(x_out)||^2] ≤ ... (정리의 표현식)로 특징지어집니다.
적응 방법의 작은 학습률 딜레마와 부분적 적응이 이를 어떻게 완화하는지 설명하고, 더 큰 효과 학습률을 가능하게 합니다.
하이퍼파라미터 그리드( p ∈ {2/5, 1/4, 1/5, 1/8, 1/16}, β1=0.9, β2=0.999/0.9999 등)를 포함한 실험 프로토콜을 제시합니다.
이미지 분류와 언어 모델링 작업에서 Padam을 SGD-Momentum, Adam, Amsgrad, AdamW, Yogi, AdaBound와 비교합니다.

실험 결과

연구 질문

RQ1부분적으로 적응적인 학습률 스킴이 Adam/Amsgrad에서 관찰되는 일반화 격차를 줄이면서 빠른 수렴을 유지할 수 있습니까?
RQ2Padam이 확률적 비볼록 최적화에서 수렴 보장을 제공하며, 차원 및 반복에 따른 속도 의존성은 어떤가요?
RQ3현대 아키텍처(CIFAR-10/ImageNet, LSTMs)에서 Padam의 실제 성능은 SGD-Momentum 및 다른 Adam 변형과 비교해 어떠한가요?
RQ4부분적 적응 파라메터 p가 초기 수렴 및 최종 일반화에 미치는 영향은 무엇인가요?

주요 결과

모델 / 데이터셋	SGD-Momentum	Adam	Amsgrad	AdamW	Yogi	AdaBound	Padam
CIFAR-10 VGGNet (Test accuracy)	93.71	92.21	92.54	93.54	92.94	93.28	93.78
CIFAR-10 ResNet (Test accuracy)	95.00	92.89	93.53	94.56	93.92	94.16	94.94
CIFAR-10 WideResNet (Test accuracy)	95.26	92.27	92.91	95.08	94.23	93.85	95.34
ImageNet VGGNet (Top-1)	73.93	69.52	69.61	69.89	71.56	70.00	74.04
ImageNet VGGNet (Top-5)	91.82	89.12	89.19	89.35	90.25	89.27	91.93
ImageNet ResNet (Top-1)	70.23	63.79	67.69	67.93	68.23	68.13	70.07
Penn Treebank LSTM 2-layer (Perplexity)	63.37	61.58	62.56	63.93	64.13	63.14	61.53
Penn Treebank LSTM 3-layer (Perplexity)	61.22	60.44	61.92	63.24	60.01	60.89	58.48

적절하게 선택된 p를 가진 Padam은 Adam/Amsgrad처럼 빠른 수렴을 달성하면서 일반화는 SGD-Momentum만큼 잘 수행합니다.
확률적 비볼록 최적화에서 Padam의 수렴 속도는 차원 d와 반복 T에 의존하는 것으로 확립됩니다.
실험 결과, CIFAR-10(VGGNet/WideResNet)에서 Padam이 종종 최고의 테스트 정확도에 도달하고 ImageNet(VGGNet)에서 Top-1에 경쟁력 있는 성능을 보이며, 테스트된 모델 전반에서 최상 또는 근사 최상을 달성합니다.
Penn Treebank에서 Padam은 2층/3층 LSTM 모델 모두에서 비교 optimizer들 중 최저의 테스트 perplexity를 달성합니다.
Padam은 Adam/Amsgrad에서 보이는 일반화 격차를 피하는 경향이 있으며 AdaBound/Yogi보다 여러 벤치마크에서 우월합니다.
전반적으로 Padam은 빠른 학습과 강한 일반화를 모두 제공하는 실용적인 최적화 도구를 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.