QUICK REVIEW

[논문 리뷰] Algorithmic Regularization in Learning Deep Homogeneous Models: Layers are Automatically Balanced

Simon S. Du, Wei Hu|arXiv (Cornell University)|2018. 06. 04.

Stochastic Gradient Optimization Techniques참고 문헌 30인용 수 22

한 줄 요약

이 논문은 ReLU 네트워크와 저질서 행렬 분해와 같은 깊이 있는 동질 모델에서 경사 하강법이 명시적 정규화 없이도 경사 하강법이 계층 노름의 은닉된 균형을 유지함으로써 계층 간 제곱 노름의 차이를 유지함을 입증한다. 감소하는 학습률을 사용할 경우 경사 하강법은 유계 전역 최적해로 수렴하며, 랭크-1 분해의 경우 일정한 학습률로 선형 수렴 속도를 달성한다.

ABSTRACT

We study the implicit regularization imposed by gradient descent for learning multi-layer homogeneous functions including feed-forward fully connected and convolutional deep neural networks with linear, ReLU or Leaky ReLU activation. We rigorously prove that gradient flow (i.e. gradient descent with infinitesimal step size) effectively enforces the differences between squared norms across different layers to remain invariant without any explicit regularization. This result implies that if the weights are initially small, gradient flow automatically balances the magnitudes of all layers. Using a discretization argument, we analyze gradient descent with positive step size for the non-convex low-rank asymmetric matrix factorization problem without any regularization. Inspired by our findings for gradient flow, we prove that gradient descent with step sizes $η_t = O\left(t^{-\left( \frac12+δ ight)} ight)$ ($0

연구 동기 및 목표

ReLU 네트워크와 행렬 분해와 같은 깊이 있는 동질 모델에서 경사 하강법의 은닉 정규화 효과를 이해하기 위해.
비볼록이고 동질적인 최적화 문제에서 발산하는 반복값의 문제를 다루기 위해.
감소하는 학습률을 사용할 경우 경사 하강법이 자동으로 계층 크기를 균형 잡고 전역 유계 해로 수렴함을 보여주기 위해.
일정한 학습률을 사용할 경우 랭크-1 비대칭 행렬 분해에서 선형 수렴 속도를 증명하기 위해.
경사 하강법 하에서 노름 차이의 불변성은 딥 러닝 최적화의 근본적인 메커니즘이다.

제안 방법

무한소 학습률을 갖는 경사 하강 흐름을 분석하여 계층 간 제곱 노름의 차이가 유지됨을 보여준다.
이산화 추론을 통해 $\eta_t = O(t^{-(1/2 + \delta)})$ (0 < \delta \leq 1/2) 학습률을 갖는 경사 하강법로 결과를 확장한다.
노름 차이의 변화와 최적성에서의 이탈을 추적하기 위해 리아푸노프 유사 함수를 도입한다.
가중치 행렬을 일치하는 성분과 수직 성분으로 분해하여 수렴 동역학을 분석한다.
제안된 학습률 스케줄링 하에서 계층 노름 비율이 유계이면서 수렴함을 증명한다.
랭크-1 분해의 경우 일정한 학습률 하에서 목적 함수 갭의 감쇠를 분석하여 선형 수렴 속도를 유도한다.

실험 결과

연구 질문

RQ1깊이 있는 동질 모델에서의 경사 하강법은 명시적 정규화 없이도 계층 노름을 은닉적으로 균형 잡는가?
RQ2감소하는 학습률을 사용할 경우 비볼록이고 저질서 행렬 분해에서 경사 하강법이 유계 전역 최적해로 수렴하는가?
RQ3일阶 최적화 방법에서 딥 러닝 최적화의 수렴에 있어 노름 불변성이 어떤 역할을 하는가?
RQ4학습률의 선택이 계층 노름 균형과 수렴 속도에 어떤 영향을 미치는가?
RQ5일정한 학습률을 사용할 경우 랭크-1 비대칭 행렬 분해에서 경사 하강법이 선형 수렴을 달성할 수 있는가?

주요 결과

경사 하강 흐름은 계층 간 제곱 노름의 차이를 유지하므로, 초기화 시 작은 가중치를 사용할 경우 계층 크기의 자동 균형이 이뤄진다.
비볼록 저질서 비대칭 행렬 분해에서 $\eta_t = O(t^{-(1/2 + \delta)})$ 학습률을 사용할 경우 경사 하강법은 유계 전역 최적해로 수렴한다.
일정한 학습률을 사용할 경우 랭크-1 비대칭 행렬 분해에서 경사 하강법은 전역 최소값으로 전역 선형 수렴 속도로 수렴한다.
경사 하강법의 은닉 정규화 효과는 발산하는 반복값을 방지하고, 명시적 제약 없이도 수렴을 보장한다.
분석 결과, 노름 차이의 불변성이 동질 모델에서 수렴 가능성을 보장하는 핵심 메커니즘이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.