QUICK REVIEW

[논문 리뷰] On the Optimization of Deep Networks: Implicit Acceleration by Overparameterization

Sanjeev Arora, Nadav Cohen|arXiv (Cornell University)|2018. 02. 19.

Stochastic Gradient Optimization Techniques참고 문헌 34인용 수 135

한 줄 요약

이 논문은 과매개변수화된 선형 네트워크에서 깊이를 증가시키면 그래디언트 디센트에 대해 프리컨디셔닝 효과를 유도하여 최적화를 암묵적으로 가속시킬 수 있으며, 이 가속은 어떤 고정된 정규화로도 재현될 수 없다는 것을 보여줍니다.

ABSTRACT

Conventional wisdom in deep learning states that increasing depth improves expressiveness but complicates optimization. This paper suggests that, sometimes, increasing depth can speed up optimization. The effect of depth on optimization is decoupled from expressiveness by focusing on settings where additional layers amount to overparameterization - linear neural networks, a well-studied model. Theoretical analysis, as well as experiments, show that here depth acts as a preconditioner which may accelerate convergence. Even on simple convex problems such as linear regression with $\ell_p$ loss, $p>2$, gradient descent can benefit from transitioning to a non-convex overparameterized objective, more than it would from some common acceleration schemes. We also prove that it is mathematically impossible to obtain the acceleration effect of overparametrization via gradients of any regularizer.

연구 동기 및 목표

깊이와 과매개변수화가 깊은 네트워크의 최적화에 어떤 영향을 미치는지 조사한다.
깊이가 행렬의 곱으로 매개변수를 바꿀 때 선형 네트워크를 분석하여 최적화와 표현력을 분리한다.
엔드-투-엔드 최적화를 특징짓기 위한 연속 시간 기울기 역학 프레임워크를 개발한다.
어떤 고정된 정규화로도 가속을 달성할 수 없음을 보인다.

제안 방법

깊은 선형 네트워크의 기울기 디센트 역학을 연속 시간 미분 방정식을 통해 분석한다.
엔드-투-엔드 가중치 W_e를 단일 층 목적 함수 L^1과 연결하고 깊이 의존적인 프리컨디셔닝을 도출한다.
W_e에 대한 명시적 업데이트 규칙을 도출하여 적응 학습률 및 모멘텀과 유사한 형태를 보인다(정리 1, 식 8-10).
특수한 단일 출력 경우를 제시하여 적응 스케일링과 프로젝션을 갖는 해를 얻는다(주장 2).
가속 효과가 어떤 고정된 정규화의 그래디언트로부터 얻어질 수 없다는 것을 증명한다(정리 2).
이론적 결론을 경험적 평가로 보충한다(섹션 8).

실험 결과

연구 질문

RQ1과매개변수화를 통한 깊이의 증가가 선형 네트워크의 최적화를 가속화하는가?
RQ2깊은 선형 네트워크를 최적화할 때 기울기 디센트 역학은 얕은 네트워크와 비교해 어떻게 달라지는가?
RQ3관찰된 가속이 표준 정규화 방법으로 재현될 수 있는가?
RQ4깊은 네트워크의 엔드-투-엔드 업데이트 특성과 깊이 N에 대한 의존성은 무엇인가?

주요 결과

깊이를 통한 과매개변수화는 그래디언트 디센트를 프리컨디셔닝하여 최적화가 이미 수행된 방향으로의 움직임을 촉진한다.
엔드-투-엔드 가중치 역학 W_e는 단일 층 목적 함수 L^1(W_e)에 대해 프리컨디셔닝된 그래디언트 스텝을 모방하는 깊이 의존 업데이트를 따른다.
프리컨디셔닝은 W_e의 특이값에 의존하며 깊이 N이 커질수록 특정 방향으로의 효과적인 스텝이 증가한다.
단일 출력 케이스에서 업데이트는 노름 기반의 적응 학습률 계수와 그래디언트 프로젝션 항을 포함하여 적응적 가속화를 가능하게 한다.
가속 효과는 어떤 고정된 정규화로도 재현될 수 없으며, 정규화된 목적 함수의 그래디언트로 표현될 수 없다(정리 2).
실증 결과는 과매개변수화가 일부 설정에서 AdaGrad, AdaDelta와 같은 표준 가속 스킴을 능가할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.