Skip to main content
QUICK REVIEW

[논문 리뷰] Generalization Bounds of Stochastic Gradient Descent for Wide and Deep Neural Networks

Yuan Cao, Quanquan Gu|arXiv (Cornell University)|2019. 05. 30.
Stochastic Gradient Optimization Techniques참고 문헌 41인용 수 93
한 줄 요약

논문은 SGD로 학습된 넓고 깊은 ReLU 네트워크가 NTRF 모델에 의한 데이터 분류 가능성 하에서 네트럴 tangent random feature 참조 클래스와 일치하는 일반화 상한을 갖고, 비네트워크 폭에 무관하게 ~n^{-1/2}의 속도로 수렴하며, NTK 이론과 연결된다는 것을 증명한다.

ABSTRACT

We study the training and generalization of deep neural networks (DNNs) in the over-parameterized regime, where the network width (i.e., number of hidden nodes per layer) is much larger than the number of training data points. We show that, the expected $0$-$1$ loss of a wide enough ReLU network trained with stochastic gradient descent (SGD) and random initialization can be bounded by the training loss of a random feature model induced by the network gradient at initialization, which we call a neural tangent random feature (NTRF) model. For data distributions that can be classified by NTRF model with sufficiently small error, our result yields a generalization error bound in the order of $ ilde{\mathcal{O}}(n^{-1/2})$ that is independent of the network width. Our result is more general and sharper than many existing generalization error bounds for over-parameterized neural networks. In addition, we establish a strong connection between our generalization error bound and the neural tangent kernel (NTK) proposed in recent work.

연구 동기 및 목표

  • SGD로 학습된 심층 ReLU 네트워크에 대해 과다 매개변수화된 영역에서 일반화를 동기 부여하고 분석한다.
  • 데이터 명확성 측정으로서 neural tangent random feature (NTRF) 참조 클래스를 도입한다.
  • 네트워크 폭에 의존하지 않는 알고리즘 의존적 일반화 상한을 제공한다.
  • NTRF 기반 상한과 neural tangent kernel (NTK) 이론 사이의 연결을 확립한다.
  • 이전의 2계층 결과에 비해 샘플 복잡도 상한이 개선된 것을 보인다.

제안 방법

  • 너비 m, 깊이 L를 가진 Fully connected 심층 ReLU 네트워크를 정의하고 Gaussian He 초기화를 사용한다.
  • 초기화 시 네트워크 기울기를 기반으로 한 neural tangent random feature (NTRF) 함수 클래스를 도입한다.
  • 매개변수에 거의 선형적인 특성을 이용하여 초기화에 근접한 SGD에 대한 누적 손실 상한을 증명한다.
  • 온라인에서 배치로의 변환을 통해 기댓값 0-1 오차 상한을 도출하고 이를 NTRF 클래스와 연관시킨다.
  • NTK 행렬 Θ^(L)을 통해 상한을 neural tangent kernel (NTK)과 연결하고 NTK 기반 상한을 담은 보기를 제공한다.

실험 결과

연구 질문

  • RQ1어떤 조건에서 SGD로 학습된 넓고 깊은 ReLU 네트워크가 작은 일반화 오차를 달성할 수 있는가?
  • RQ2NTRF 참조 클래스를 기준으로 한 데이터의 분류가능성이 일반화 상한에 어떤 영향을 미치는가?
  • RQ3깊은 네트워크에서 SGD 일반화 상한과 neural tangent kernel 이론 사이의 관계는 무엇인가?
  • RQ4해당 분석이 모든 매개변수가 학습되는 심층 구조로까지 2계층을 넘어 확장될 수 있는가?

주요 결과

  • SGD로 학습된 넓은 ReLU 네트워크의 기대 0-1 오차는 NTRF 참조 클래스를 통한 훈련 손실에 의해 상한이 잡힌다.
  • 데이터가 NTRF 모델로 작은 오차로 분류될 수 있을 때, 상한은 ~tilde{O}(n^{-1/2})로 스케일되며 네트워크 폭에 독립적이다.
  • 상한은 NTK와 연결되어 커널 유사 표현 ~ tilde{O}(L * sqrt(y^T Θ^(L)^{-1} y / n))를 제공한다.
  • 이 결과는 이층 네트워크를 넘어 확장되며 이전의 무작위 특징 기반 분석보다 더 예리한 상한을 산출한다.
  • Corollary 3.10은 폭에 의존하지 않고 NTK 행렬 Θ^(L)에 의존하는 NTK 기반 상한을 제공한다.
  • 이 프레임워크는 목표 함수가 NTK 유도 RKHS 노름이 유계이면 SGD가 잘 일반화된다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.