QUICK REVIEW

[논문 리뷰] An Inertial Newton Algorithm for Deep Learning

Camille Castera, Jérôme Bolte|arXiv (Cornell University)|2019. 05. 29.

Model Reduction and Neural Networks참고 문헌 47인용 수 19

한 줄 요약

이 논문은 단지 확률적 기울기와 함수 값만을 사용하여 뉘앙스의 뉘앙스 역학과 운동량 유사 관성 요소를 결합한 새로운 관성 뉴턴 알고리즘인 INNA를 제안한다. 비연속적이고 비볼록적인 딥러닝 문제에 대해 비선형 수렴성을 달성하며, 하이퍼파ram터 조정을 최소화한 상태에서 CIFAR 및 MNIST 벤치마크에서 ADAM 및 SGD와 유사하거나 그 이상의 경험적 성능을 보인다.

ABSTRACT

We introduce a new second-order inertial optimization method for machine learning called INNA. It exploits the geometry of the loss function while only requiring stochastic approximations of the function values and the generalized gradients. This makes INNA fully implementable and adapted to large-scale optimization problems such as the training of deep neural networks. The algorithm combines both gradient-descent and Newton-like behaviors as well as inertia. We prove the convergence of INNA for most deep learning problems. To do so, we provide a well-suited framework to analyze deep learning loss functions involving tame optimization in which we study a continuous dynamical system together with its discrete stochastic approximations. We prove sublinear convergence for the continuous-time differential inclusion which underlies our algorithm. Additionally, we also show how standard optimization mini-batch methods applied to non-smooth non-convex problems can yield a certain type of spurious stationary points never discussed before. We address this issue by providing a theoretical framework around the new idea of $D$-criticality; we then give a simple asymptotic analysis of INNA. Our algorithm allows for using an aggressive learning rate of $o(1/\\log k)$. From an empirical viewpoint, we show that INNA returns competitive results with respect to state of the art (stochastic gradient descent, ADAGRAD, ADAM) on popular deep learning benchmark problems.

연구 동기 및 목표

딥 뉴럴 네트워크를 위한 이차 최적화 알고리즘을 설계하여, 뉘앙스 곡률 정보와 관성 운동량을 단지 확률적 기울기와 함수 값 근사치만을 사용해 통합한다.
실제로 흔한 비연속적이고 비볼록적인 딥러닝 손실 함수의 맥락에서 INNA의 이론적 수렴성을 확립한다.
미니배치 확률적 최적화에서 발생하는 허위 정류점 문제를 해결하기 위해 D-비판점 개념을 도입한다.
안정성을 잃지 않으면서 o(1/log k) 수준의 공격적인 학습률을 허용하는 강건하고 확장 가능한 알고리즘을 제공한다.
기존 최첨단 방법들인 SGD, ADAM, ADAGRAD와의 비교를 통해 INNA의 경쟁력을 표준 딥러닝 벤치마크에서 경험적으로 검증한다.

제안 방법

관성, 마찰력, 뉘앙스, 기울기 하강 요소를 포함하는 연속 시간 동역학계(DIN)에서 유도된 알고리즘으로, 실용적 사용을 위해 이산화된다.
헤시안 행렬의 직접 계산을 피하기 위해 단계 공간 리프팅 기법을 사용하며, 대신 기울기와 함수 값의 확률적 근사치에 의존한다.
일반화된 기울기 오ракูล과 티드 최적화 프레임워크를 도입하여 딥러닝 손실 함수의 비연속성 문제를 다룬다.
미니배치 샘플링으로 인한 허위 정류점의 분석과 완화를 위해 D-비판점 기반의 새로운 이론적 프레임워크를 제안한다.
q ≤ 1/2 인 형태의 단계 크기 규칙 γ₀k⁻q 를 사용하여 천천히 감쇠되도록 하여 실무에서의 수렴 성능을 향상시킨다.
대부분의 딥러닝 문제에 적용 가능한 약한 가정 하에, 연속 미분 포함관계와 그 이산 확률적 근사치의 분석을 통해 수렴성을 증명한다.

실험 결과

연구 질문

RQ1기울기와 함수 값의 단지 확률적 근사치만을 사용하여 딥러닝에 적합한 이차 관성 최적화 방법을 설계할 수 있는가?
RQ2고차원적이고 비연속적이며 비볼록적인 환경에서 계산 가능하고 안정적인 방식으로 관성력과 뉘앙스 역학을 어떻게 통합할 수 있는가?
RQ3딥 뉴럴 네트워크 맥락에서 이러한 알고리즘의 수렴에 대해 어떤 이론적 보장을 제공할 수 있는가?
RQ4미니배치 샘플링 효과는 어떻게 허위 정류점을 유도하며, 이를 공식적으로 특성화하고 피할 수 있는가?
RQ5제안된 알고리즘이 ADAM 및 SGD와 같은 기존 최첨단 방법보다 수렴 속도와 최종 정확도 측면에서 뛰어나게 성능을 낼 수 있는가?

주요 결과

약한 손실 함수의 정규성 가정 하에서도, 알고리즘의 기초가 되는 연속 시간 미분 포함관계에 대해 INNA가 비선형 수렴성을 달성한다.
D-비판점의 도입은 비연속적이고 비볼록 최적화에서 미니배치 샘플링으로 인한 허위 정류점의 분석과 회피를 위한 새로운 이론적 프레임워크를 제공한다.
경험적 결과는 INNA가 CIFAR-10, CIFAR-100, MNIST에서 ADAM 및 SGD와 유사하거나 그 이상의 성능을 보이며, 특히 CIFAR-100에서의 테스트 정확도에서 뛰어난 성능을 발휘함을 보여준다.
INNA는 α와 β 하이퍼파ram터 설정에 대해 강건하며, (0.5, 0.1)이 안정적인 기본 설정으로 기능한다. 학습 속도는 주로 이들 파ram터에 의해 영향을 받는다.
k⁻¹⁴ 수준의 느린 단계 크기 감쇠를 통해 INNA는 학습 속도와 최종 성능에서 ADAM을 능가하며, 공격적인 학습률 스케줄의 이점을 입증한다.
알고리즘은 매우 조정 가능하고 재현 가능하며, 최소한의 튜닝으로도 뛰어난 성능을 달성하여 실제 딥러닝 워크플로우에서의 실용적 적용 가능성을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.