QUICK REVIEW

[논문 리뷰] Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Difan Zou, Yuan Cao|arXiv (Cornell University)|2018. 11. 21.

Stochastic Gradient Optimization Techniques참고 문헌 44인용 수 216

한 줄 요약

본 논문은 가우시안 무작위 초기화와 과파라미터화(over-parameterization) 하에서, 심층 ReLU 네트워크를 이용한 이진 분류에서 데이터의 완만한 분리 가정하에 그래디언트 디센트(GD)와 확률적 그래디언트 디센트(SGD) 모두 학습 손실의 전역 최솟값에 도달할 수 있음을 보인다.

ABSTRACT

We study the problem of training deep neural networks with Rectified Linear Unit (ReLU) activation function using gradient descent and stochastic gradient descent. In particular, we study the binary classification problem and show that for a broad family of loss functions, with proper random weight initialization, both gradient descent and stochastic gradient descent can find the global minima of the training loss for an over-parameterized deep ReLU network, under mild assumption on the training data. The key idea of our proof is that Gaussian random initialization followed by (stochastic) gradient descent produces a sequence of iterates that stay inside a small perturbation region centering around the initial weights, in which the empirical loss function of deep ReLU networks enjoys nice local curvature properties that ensure the global convergence of (stochastic) gradient descent. Our theoretical results shed light on understanding the optimization for deep learning, and pave the way for studying the optimization dynamics of training modern deep neural networks.

연구 동기 및 목표

왜 최적화 관점에서 심층 ReLU 네트워크의 학습이 성공하는지 이해를 촉진한다.
과파라미터화와 무작위 초기화가 그래디언트 기반 방법으로 심층 네트워크의 전역 최솟값에 도달하도록 한다.
광범위한 손실 클래스에 대해 GD와 SGD의 수렴 보장을 제공한다.
실용적인 데이터 분리 조건을 채택하여 기존의 강한 데이터 가정을 완화한다.

제안 방법

가우시안 초기화를 갖는 L-히든 레이어 완전 연결 ReLU 네트워크를 모델링한다.
완만한 매끄러움 및 증가 조건을 만족하는 광범위한 손실 가족 하에서 학습 역학을 분석한다.
초기화 주변의 작은 섭동 영역에 GD가 머물며 유리한 국부 곡률을 누리는 것을 보인다.
확률적 그래디언트 디센트로 분석을 확장하고, 제로 학습 오차로 수렴하는 조건을 도출한다.
네트워크 너비와 데이터 매개변수가 수렴에 미치는 영향을 다항식 의존으로 특징짓는다.

실험 결과

연구 질문

RQ1과파라미터화와 가우시안 초기화를 결합하면 분류 작업에서 심층 ReLU 네트워크에 대해 GD/SGD의 전역 수렴이 보장될 수 있는가?
RQ2완만한 데이터 분리 가정하에서 제로 학습 오차를 보장하기 위한 네트워크 너비와 반복 횟수는 얼마인가?
RQ3광범위한 클래스의 손실 함수 선택이 수렴 보장에 어떤 영향을 미치는가?
RQ4제안된 프레임워크 하에서 GD와 SGD는 수렴 보장과 필요한 자원 측면에서 어떻게 비교되는가?

주요 결과

GD와 SGD 모두 과파라미터화된 심층 ReLU 네트워크의 학습 손실의 전역 최소값에 도달할 수 있다.
데이터 분리 가정이 더 완화된 상태에서 광범위한 손실 함수 가족에 대해 수렴이 성립한다.
필요한 너비(숨은 층당 노드 수)와 반복 횟수는 샘플 크기 및 데이터 분리와 같은 문제 매개변수에 다항식으로 비례한다.
SGD는 GD와 유사한 보장으로 제로 학습 오차를 달성할 수 있지만 너비/반복에서 더 큰 배수를 요구할 수 있다.
해당 분석은 네트워크가 가우시안 초기화 주변의 섭동 영역에서 머무르며 우수한 국부 곡률을 나타내는 의존성에 기반한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.