QUICK REVIEW

[논문 리뷰] Equilibrated adaptive learning rates for non-convex optimization

Yann Dauphin, Harm de Vries|arXiv (Cornell University)|2015. 02. 15.

Stochastic Gradient Optimization Techniques참고 문헌 18인용 수 152

한 줄 요약

이 논문은 비볼록 최적화에서 안정된 학습률을 제공하기 위해 등가 조정(preconditioner)을 사용하는 ESGD를 제안한다. 이는 딥러닝에서의 안장점(saddle points)을 더 잘 다루며, RMSProp이나 자코비 조정보다 헤시안의 곡률 구조와 더 밀접하게 업데이트 방향을 정렬함으로써 빠른 수렴을 달성한다. MNIST에서 SGD보다 약 3배 빠르게 수렴하며, 훈련 속도와 최종 오차에서 RMSProp을 능가한다. 실험적 증거는 RMSProp의 성공이 등가 조정과 유사성 때문일 수 있음을 시사한다.

ABSTRACT

Parameter-specific adaptive learning rate methods are computationally efficient ways to reduce the ill-conditioning problems encountered when training large deep networks. Following recent work that strongly suggests that most of the critical points encountered when training such networks are saddle points, we find how considering the presence of negative eigenvalues of the Hessian could help us design better suited adaptive learning rate schemes. We show that the popular Jacobi preconditioner has undesirable behavior in the presence of both positive and negative curvature, and present theoretical and empirical evidence that the so-called equilibration preconditioner is comparatively better suited to non-convex problems. We introduce a novel adaptive learning rate scheme, called ESGD, based on the equilibration preconditioner. Our experiments show that ESGD performs as well or better than RMSProp in terms of convergence speed, always clearly improving over plain stochastic gradient descent.

연구 동기 및 목표

비볼록 최적화에서의 불량 조건 문제, 특히 안장점 주변에서의 학습 속도 저하를 해결하기 위해.
헤시안의 고유값이 양수와 음수를 모두 포함할 때 기존의 대각 조정자(특히 자코비 조정자)의 한계를 분석하기 위해.
등가 조정자를 기반으로 한 새로운 적응형 학습률 스케줄인 ESGD를 제안하여, 비볼록 경관에서의 혼합 곡률을 더 잘 다루기 위해.
딥 오토에코더 벤치마크에서 ESGD가 RMSProp과 SGD보다 수렴 속도와 최종 손실 면에서 뛰어나다는 실험적 검증을 위해.
RMSProp이 실무에서 우수한 성능을 내는 이유를 등가 조정 업데이트 방향과 비교하여 탐구하기 위해.

제안 방법

헤시안 $ \mathbf{H} $에 대해 등가 조정자는 $ \mathbf{D}^{\text{E}} = \sqrt{\text{diag}(\mathbf{H}^2)} $ 로 정의되며, 양방향 곡률을 균형 있게 조정한다.
ESGD는 미니배치의 기울기로부터 무편향 확률적 추정기를 사용해 $ \mathbf{D}^{\text{E}} $ 를 적응적으로 추정한다.
매개변수 공간을 $ \hat{\theta} = \mathbf{D}^{1/2} \theta $ 로 변환함으로써, 새로운 함수 $ \hat{f} $ 를 도입하여 곡률을 더 균일하게 만들고 수렴을 향상시킨다.
예측된 업데이트를 사용해 변환된 공간에서 경사하강법을 적용한다: $ \theta_t = \theta_{t-1} - \eta \mathbf{D}^{-1} \nabla f(\theta) $.
전체 헤시안 계산을 피하기 위해 대각 근사치를 사용함으로써, 대규모 모델에 대해 계산적으로 효율적이다.
모델 평가 시 Theano를 사용하였으며, 최적화기 성능를 분리하기 위해 모멘텀을 사용하지 않았다.

실험 결과

연구 질문

RQ1비볼록 최적화에서 안장점의 특성인 양음 곡률을 동시에 포함할 때 자코비 조정자는 어떤 성능을 보이는가?
RQ2RMSProp은 안장점 탈출을 위해 특별히 설계되지 않았음에도 불구하고, 왜 깊은 신경망 훈련에서 뛰어난 성능을 내는가?
RQ3등가 조정자는 자코비 또는 RMSProp보다 비볼록 환경에서 더 나은 수렴 행동을 제공할 수 있는가?
RQ4훈련 중 RMSProp의 업데이트 방향이 등가 조정 업데이트와 얼마나 일치하는가?
RQ5등가 조정 기반의 적응형 학습률 방법은 수렴 속도와 최종 손실 면에서 RMSProp과 SGD를 능가하는가?

주요 결과

MNIST 오토에코더 벤치마크에서 ESGD는 RMSProp과 SGD를 크게 능가하여 최종 훈련 MSE 0.86을 달성했으며, SGD는 2.1, RMSProp은 더 높은 값을 기록했다.
MNIST에서 ESGD는 표준 SGD보다 약 3배 빠르게 수렴하며, 250 에포크 이후 성능 향상이 가장 두드러졌다.
CURVES 데이터셋에서는 ESGD가 가장 우수한 성능를 보였지만, RMSProp과의 성능 격차는 작아, 조정자의 성능이 데이터셋에 따라 달라질 수 있음을 시사했다.
CURVES에서 RMSProp의 추정된 조정자와 등가 조정 행렬 간의余弦 거리는 약 0.05로 낮게 유지되어, 업데이트 방향에서 강한 일치를 보였다.
MNIST에서 RMSProp은 1000 에포크 이후 등가 조정에서 벗어나며 ESGD에 비해 성능이 저하되었는데, 이는 RMSProp의 성공이 등가 조정과의 유사성과 관련이 있음을 시사한다.
이론적 및 실험적 분석을 통해 자코비 조정자는 혼합 곡률 환경에서 성능이 열 劣하며, 등가 조정은 양음 곡률을 더 잘 균형 잡아 안장점 탈출을 더 빠르게 한다는 것이 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.