Skip to main content
QUICK REVIEW

[논문 리뷰] Generalization Error Bounds of Gradient Descent for Learning Over-parameterized Deep ReLU Networks

Yuan Cao, Quanquan Gu|arXiv (Cornell University)|2019. 02. 04.
Machine Learning and ELM참고 문헌 90인용 수 68
한 줄 요약

이 논문은 과-매개화된 깊은 ReLU 네트워크에서 경사하강법에 의한 알고리즘 의존 일반화 경계를 도출하고, Wide 네트워크에서 특정 데이터 가정 하에 GD가 임의로 작게 일반화 오차를 달성할 수 있음을 증명한다.

ABSTRACT

Empirical studies show that gradient-based methods can learn deep neural networks (DNNs) with very good generalization performance in the over-parameterization regime, where DNNs can easily fit a random labeling of the training data. Very recently, a line of work explains in theory that with over-parameterization and proper random initialization, gradient-based methods can find the global minima of the training loss for DNNs. However, existing generalization error bounds are unable to explain the good generalization performance of over-parameterized DNNs. The major limitation of most existing generalization bounds is that they are based on uniform convergence and are independent of the training algorithm. In this work, we derive an algorithm-dependent generalization error bound for deep ReLU networks, and show that under certain assumptions on the data distribution, gradient descent (GD) with proper random initialization is able to train a sufficiently over-parameterized DNN to achieve arbitrarily small generalization error. Our work sheds light on explaining the good generalization performance of over-parameterized deep neural networks.

연구 동기 및 목표

  • 왜 gradient descent가 과-매개화된 깊은 ReLU 네트워크에 대해 좋은 일반화를 낳을 수 있는지 설명한다.
  • 일반화 경계의 한계를 균일 수렴(bound)보다 개선하는 알고리즘 의존 일반화 경계를 제공한다.
  • 과-매개화 하에서 초기화 근처의 tau-이웃에서 GD의 전역 최적해로의 수렴을 보인다.
  • GD가 epsilon-일반화를 달성하는 두 가지 데이터 분포 가정 아래를 분석하고, 다항적인 샘플 수를 갖는 코오리들로 제시한다.

제안 방법

  • cross-entropy 손실로 학습된 L-은닉층 완전 연결 ReLU 네트워크의 이진 분류를 GD로 연구한다.
  • 가중치를 He 초기화와 같은 Gaussian으로 초기화하고 경험적 위험을 최소화하기 위해 GD를 실행한다.
  • 초기화 주위 tau-네이버후드 tau-neighborhood를 정의하고 Rademacher 복잡도 를 사용해 일반화 간극을 상한한다.
  • 최적화와 일반화 성능을 연결하기 위해 경험적 및 모집단 대리 오차를 도입한다.
  • 그라디언트 하강법이 tau-네이버후드 내의 전역 최적해로 수렴함을 그라디언트 하한 조건(정리 4.7) 아래 보인다.
  • 두 가지 데이터 분포 가정(무작위 ReLU 특징에 의한 분리 및 공액 커널에 의한 분리)과 epsilon-일반화 경계의 코로리들을 제공한다.

실험 결과

연구 질문

  • RQ1GD가 과-매개화된 깊은 ReLU 네트워크를 학습시켜 작은 일반화 오차를 달성하게 하는 데이터 분포 조건은 무엇인가?
  • RQ2과-매개화 영역에서 네트워크 너비가 일반화 경계에 어떻게 스케일하는가?
  • RQ3깊은 ReLU 네트워크에 대해 초기화에 근접한 전역 최적해로의 수렴이 가능한가, 필요한 너비와 초기화 조건은 무엇인가?
  • RQ4무작위 ReLU 특징에 의한 분리 또는 공액 커널에 의한 분리에 대한 가정의 일반화 보장에 대한 구체적 시사점은 무엇인가?

주요 결과

  • 각 층 너비 m_l = tilde Omega(epsilon^-14)이고 n = tilde Omega(epsilon^-4)일 때, 적절한 초기화를 사용한 GD가 모집단 오차를 높은 확률로 epsilon 이하로 달성한다는 비형식적 결과가 있다.
  • 정리 4.5의 일반화 경계는 tau와 m에 따라 일반화 간극의 경계가 대략 tilde O(tau * sqrt(m/n)) 정도로 스케일되며, He 초기화 하에서 너비 의존성을 일부 선행 경계보다 개선한다.
  • Gradient descent는 tau-네이버후드 내의 전역 최적해로 수렴하는 것이 보이며, 그라디언트 하한 조건이 sqrt(m)로 스케일될 때 이는 정리 4.7에 의해 보인다.
  • 특정 데이터 분포 가정(무작위 ReLU 특징에 의한 분리 또는 공액 커널에 의한 분리) 하의 코로리들에서 다항적으로 많은 샘플로 epsilon-일반화를 얻는다: 첫 경우에서 m* = tilde O(poly(2^L, gamma^-1)) * epsilon^-14, n* = tilde O(poly(2^L, gamma^-1)) * epsilon^-4; 두 번째의 경우 gamma^-1 의 의존성을 가진 유사한 경계.
  • 결과들은 임의의 깊이에 대한 Wide 신경망에 대한 알고리즘 의존 일반화 경계를 제공하며, 최적화 역학과 일반화를 너비 독립성의 균일 수렴 경계의 한계를 넘어서 연결한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.