[논문 리뷰] Generalization Bounds of Stochastic Gradient Descent for Wide and Deep Neural Networks
논문은 SGD로 학습된 넓고 깊은 ReLU 네트워크가 NTRF 모델에 의한 데이터 분류 가능성 하에서 네트럴 tangent random feature 참조 클래스와 일치하는 일반화 상한을 갖고, 비네트워크 폭에 무관하게 ~n^{-1/2}의 속도로 수렴하며, NTK 이론과 연결된다는 것을 증명한다.
We study the training and generalization of deep neural networks (DNNs) in the over-parameterized regime, where the network width (i.e., number of hidden nodes per layer) is much larger than the number of training data points. We show that, the expected $0$-$1$ loss of a wide enough ReLU network trained with stochastic gradient descent (SGD) and random initialization can be bounded by the training loss of a random feature model induced by the network gradient at initialization, which we call a neural tangent random feature (NTRF) model. For data distributions that can be classified by NTRF model with sufficiently small error, our result yields a generalization error bound in the order of $ ilde{\mathcal{O}}(n^{-1/2})$ that is independent of the network width. Our result is more general and sharper than many existing generalization error bounds for over-parameterized neural networks. In addition, we establish a strong connection between our generalization error bound and the neural tangent kernel (NTK) proposed in recent work.
연구 동기 및 목표
- SGD로 학습된 심층 ReLU 네트워크에 대해 과다 매개변수화된 영역에서 일반화를 동기 부여하고 분석한다.
- 데이터 명확성 측정으로서 neural tangent random feature (NTRF) 참조 클래스를 도입한다.
- 네트워크 폭에 의존하지 않는 알고리즘 의존적 일반화 상한을 제공한다.
- NTRF 기반 상한과 neural tangent kernel (NTK) 이론 사이의 연결을 확립한다.
- 이전의 2계층 결과에 비해 샘플 복잡도 상한이 개선된 것을 보인다.
제안 방법
- 너비 m, 깊이 L를 가진 Fully connected 심층 ReLU 네트워크를 정의하고 Gaussian He 초기화를 사용한다.
- 초기화 시 네트워크 기울기를 기반으로 한 neural tangent random feature (NTRF) 함수 클래스를 도입한다.
- 매개변수에 거의 선형적인 특성을 이용하여 초기화에 근접한 SGD에 대한 누적 손실 상한을 증명한다.
- 온라인에서 배치로의 변환을 통해 기댓값 0-1 오차 상한을 도출하고 이를 NTRF 클래스와 연관시킨다.
- NTK 행렬 Θ^(L)을 통해 상한을 neural tangent kernel (NTK)과 연결하고 NTK 기반 상한을 담은 보기를 제공한다.
실험 결과
연구 질문
- RQ1어떤 조건에서 SGD로 학습된 넓고 깊은 ReLU 네트워크가 작은 일반화 오차를 달성할 수 있는가?
- RQ2NTRF 참조 클래스를 기준으로 한 데이터의 분류가능성이 일반화 상한에 어떤 영향을 미치는가?
- RQ3깊은 네트워크에서 SGD 일반화 상한과 neural tangent kernel 이론 사이의 관계는 무엇인가?
- RQ4해당 분석이 모든 매개변수가 학습되는 심층 구조로까지 2계층을 넘어 확장될 수 있는가?
주요 결과
- SGD로 학습된 넓은 ReLU 네트워크의 기대 0-1 오차는 NTRF 참조 클래스를 통한 훈련 손실에 의해 상한이 잡힌다.
- 데이터가 NTRF 모델로 작은 오차로 분류될 수 있을 때, 상한은 ~tilde{O}(n^{-1/2})로 스케일되며 네트워크 폭에 독립적이다.
- 상한은 NTK와 연결되어 커널 유사 표현 ~ tilde{O}(L * sqrt(y^T Θ^(L)^{-1} y / n))를 제공한다.
- 이 결과는 이층 네트워크를 넘어 확장되며 이전의 무작위 특징 기반 분석보다 더 예리한 상한을 산출한다.
- Corollary 3.10은 폭에 의존하지 않고 NTK 행렬 Θ^(L)에 의존하는 NTK 기반 상한을 제공한다.
- 이 프레임워크는 목표 함수가 NTK 유도 RKHS 노름이 유계이면 SGD가 잘 일반화된다는 것을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.