QUICK REVIEW

[논문 리뷰] The Marginal Value of Adaptive Gradient Methods in Machine Learning

Ashia Wilson, Rebecca Roelofs|arXiv (Cornell University)|2017. 05. 23.

Stochastic Gradient Optimization Techniques참고 문헌 20인용 수 552

한 줄 요약

적응형 그래디언트 방법(AdaGrad, RMSProp, Adam)은 GD/SGD와는 매우 다른 해로 수렴하는 경우가 많고 과매개변수화 설정에서 일반화가 더 나쁘며, 반면 SGD/HB는 비슷한 학습 손실에도 테스트 성능에서 일반적으로 이들보다 우수하게 나타난다; 튜닝은 Adam의 성능에 상당한 영향을 미칠 수 있다.

ABSTRACT

Adaptive optimization methods, which perform local optimization with a metric constructed from the history of iterates, are becoming increasingly popular for training deep neural networks. Examples include AdaGrad, RMSProp, and Adam. We show that for simple overparameterized problems, adaptive methods often find drastically different solutions than gradient descent (GD) or stochastic gradient descent (SGD). We construct an illustrative binary classification problem where the data is linearly separable, GD and SGD achieve zero test error, and AdaGrad, Adam, and RMSProp attain test errors arbitrarily close to half. We additionally study the empirical generalization capability of adaptive methods on several state-of-the-art deep learning models. We observe that the solutions found by adaptive methods generalize worse (often significantly worse) than SGD, even when these solutions have better training performance. These results suggest that practitioners should reconsider the use of adaptive methods to train neural networks.

연구 동기 및 목표

딥 러닝에서 최적화 방법 선택이 일반화에 미치는 영향에 대해 동기를 부여하고 이해한다.
구성된 이진 분류 설정에서 적응형 방법이 샘플 밖 성능이 나쁜 해로 수렴할 수 있음을 보여준다.
최신 딥 러닝 모델과 작업 전반에서 적응형 방법과 비적응형 방법을 실증적으로 비교한다.
모든 방법에서 성능을 개선하기 위한 학습률 및 감소 스킴 튜닝에 대한 실용적인 지침을 제공한다.

제안 방법

적응형 메트릭 H_k를 갖는 최적화를 형식화하고 AdaGrad, RMSProp, Adam(diagonal H_k)의 업데이트를 도출한다.
간단한 최소제곱 이진 분류에서 비적응형 방법은 X의 행 공간 안에서 최소 노름(최대 마진) 해로 수렴하는 반면, 특정 조건하에서 적응형 방법은 sign(X^T y)에 비례하는 해로 수렴한다(정리 3.1).
적응형 방법이 검정 오차를 1/2에 거의 근접하게 얻는 무한 차원 생성 모델을 구성하는 반면, SGD는 0의 검정 오차를 달성한다.
신중한 하이퍼파라미터 튜닝과 함께 SGD, Heavy Ball, AdaGrad, RMSProp, Adam을 비교하는 광범위한 딥 러닝 실험(CIFAR-10, War and Peace 언어 모델, Penn Treebank 구문 분석)을 수행한다.
다양한 작업에서 성능이 잘 나오는 학습률 및 감소(tdecay) 튜닝의 실용적인 스킴을 제안한다.

실험 결과

연구 질문

RQ1적응형 그래디언트 방법이 비적응형 방법이 찾아낸 최소해와 다르게 일반화하는 해로 수렴하는가?
RQ2학습 성능이 비슷하거나 더 나은 경우에도 적응형 방법이 SGD/모멘텀과 비교하여 일반화가 더 나쁠 수 있는가?
RQ3딥 러닝 작업에서 적응형 방법이 잘 작동하기 위해 필요한 하이퍼파라미터 튜닝의 정도는 어느 정도인가?
RQ4다양한 딥 러닝 작업에서 Adam의 성능을 개선하는 실용적인 튜닝 전략은 무엇인가?

주요 결과

적응형 방법은 학습 성능이 비슷하거나 더 나은 경우에도 일반화가 비적응형 방법보다 더 나쁜 해를 찾는 경향이 있다.
평가된 모델과 작업 전반에 걸쳐 같은 튜닝 노력을 가정할 때 개발/테스트 세트에서 SGD/모멘텀 SGD가 적응형 방법보다 우수하다.
적응형 방법은 초기 학습 진행이 더 빠른 경향이 있지만 개발/테스트 성능에서 초기에 정체된다.
Adam의 초기 학습률과 감소 스킴 튜닝은 모든 경우에서 기본 설정에 비해 상당한 향상을 보인다.
간단한 구성 이진 분류 문제에서 AdaGrad/Adam/RMSProp는 일반화가 나쁜 해로 수렴하는 반면, SGD는 0의 테스트 오차를 달성한다.
CIFAR-10, War and Peace, Penn Treebank에 대한 실증 결과는 적응형 방법이 SGD/HB보다 일반화가 더 나쁘다고 나타내며, 때로는 상당히 차이가 난다.
저자들은 방법들 간의 성능을 개선하는 실용적인 학습률 튜닝 스킴을 제안한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.