QUICK REVIEW

[논문 리뷰] AdaShift: Decorrelation and Convergence of Adaptive Learning Rate Methods

Zhiming Zhou, Qingru Zhang|arXiv (Cornell University)|2018. 09. 29.

Stochastic Gradient Optimization Techniques참고 문헌 12인용 수 29

한 줄 요약

이 논문은 AdaShift를 제안하며, 이는 기울기 $g_t$와 제2모멘트 추정치 $v_t$ 간의 상관관계를 시간적 이동을 통해 제거함으로써 Adam의 수렴 불가 문제를 해결하는 새로운 적응형 학습률 방법이다. $v_t$를 현재 기울기 $g_t$가 아닌 지연된 기울기 $g_{t-n}$를 사용하여 계산함으로써 AdaShift는 편향이 없는 스텝 크기를 보장하며, 이는 수렴성을 보장하면서도 Adam의 훈련 속도와 일반화 성능를 유지함을 입증하였다. 이는 MNIST, CIFAR-10, Tiny-ImageNet, GANs, NMT 모델을 포함한 다양한 딥러닝 벤치마크에서 검증되었다.

ABSTRACT

Adam is shown not being able to converge to the optimal solution in certain cases. Researchers recently propose several algorithms to avoid the issue of non-convergence of Adam, but their efficiency turns out to be unsatisfactory in practice. In this paper, we provide new insight into the non-convergence issue of Adam as well as other adaptive learning rate methods. We argue that there exists an inappropriate correlation between gradient $g_t$ and the second-moment term $v_t$ in Adam ($t$ is the timestep), which results in that a large gradient is likely to have small step size while a small gradient may have a large step size. We demonstrate that such biased step sizes are the fundamental cause of non-convergence of Adam, and we further prove that decorrelating $v_t$ and $g_t$ will lead to unbiased step size for each gradient, thus solving the non-convergence problem of Adam. Finally, we propose AdaShift, a novel adaptive learning rate method that decorrelates $v_t$ and $g_t$ by temporal shifting, i.e., using temporally shifted gradient $g_{t-n}$ to calculate $v_t$. The experiment results demonstrate that AdaShift is able to address the non-convergence issue of Adam, while still maintaining a competitive performance with Adam in terms of both training speed and generalization.

연구 동기 및 목표

Adam 및 기타 적응형 학습률 방법에서의 수렴 실패의 근본 원인을 규명하는 것.
기울기 $g_t$와 제2모멘트 추정치 $v_t$ 간의 상관관계로 인한 편향된 스텝 크기가 수렴 실패의 근본 원인임을 입증하는 것.
$v_t$와 $g_t$를 비상관관계화함으로써 편향 없는 수렴 가능한 스텝 크기를 도출하는 방법을 제안하는 것.
수렴성을 보장하면서도 훈련 효율성과 일반화 성능를 유지하는 실용적인 적응형 최적화 방법을 설계하는 것.
다양한 딥러닝 작업, 특히 피드포워드 네트워크, CNNs, GANs, RNNs에서 제안된 방법을 검증하는 것.

제안 방법

수렴성을 분석하기 위한 새로운 시각 도입: 각 기울기의 누적 스텝 크기(총 갱신 인자)를 통해 분석한다.
AdaShift를 제안하며, $v_t$를 현재 기울기 $g_t$가 아닌 시간적으로 이동된 기울기 $g_{t-n}$를 사용하여 계산함으로써 $v_t$와 현재 기울기 간의 상관관계를 제거한다.
$v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_{t-n}^2$로 정의하여 $v_t$와 $g_t$ 간의 직접적 상관관계를 끊는다.
기존 Adam과 동일한 갱신 규칙 $\theta_{t+1} = \theta_t - \frac{\alpha_t}{\sqrt{v_t}} m_t$를 유지하나, 상관관계가 제거된 $v_t$를 사용한다.
층 간에 $v_t$에 대해 공간적 연산(예: 최대풀링)을 적용하여 안정성과 일반화 성능를 향상시키며, 이는 max-AdaShift를 도출한다.
이론적으로 상관관계 제거가 편향 없는 기대 스텝 크기를 가져오며, 온건한 조건 하에서 수렴을 보장함을 증명한다.

실험 결과

연구 질문

RQ1Adam이 광범위하게 사용되지만 일부 최적화 문제에서는 수렴하지 못하는 이유는 무엇인가?
RQ2Adam과 같은 적응형 학습률 방법에서 수렴 실패 현상의 근본 원인은 무엇인가?
RQ3제2모멘트 추정치 $v_t$를 현재 기울기 $g_t$에서 분리함으로써 편향 없는 스텝 크기와 향상된 수렴 성능를 달성할 수 있는가?
RQ4Adam의 효율성을 유지하면서도 수렴성을 보장하는 실용적인 적응형 최적화 방법을 설계할 수 있는가?
RQ5기존의 변종인 AMSGrad 및 AdamNC와 비교해보았을 때, 제안된 방법은 훈련 속도, 일반화 성능, 수렴성 측면에서 어떻게 다른가?

주요 결과

AdaShift는 시간적 이동을 통해 $v_t$와 $g_t$를 비상관관계화함으로써 Adam의 수렴 불가 문제를 해결하며, 편향 없는 스텝 크기와 이론적 수렴성을 보장한다.
다층퍼셉트론을 사용한 MNIST에서 AdaShift(특히 non-AdaShift)는 Adam과 AMSGrad보다 더 우수한 일반화 성능를 보이며, 경미한 훈련 손실 진동을 보였다.
CIFAR-10에서 ResNet과 DenseNet을 사용한 실험에서 AdaShift는 테스트 정확도와 훈련 손실에서 Adam과 유사하거나 略적으로 뛰어나며, AMSGrad는 열악한 성능를 보였다.
DenseNet을 사용한 Tiny-ImageNet 실험에서 AdaShift는 유사한 훈련 손실 곡선을 보였음에도 불구하고 Adam보다 높은 테스트 정확도를 달성했다.
WGAN-GP 훈련에서 AdaShift는 디스criminator 성능에서 Adam과 AMSGrad를 모두 압도적으로 뛰어넘었다.
신경망 기반 번역(NMT)에서 AdaShift는 BLEU 점수에서 Adam과 AMSGrad를 모두 능가하며 최고의 성능를 기록했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.