QUICK REVIEW

[논문 리뷰] Learning and Generalization in Overparameterized Neural Networks, Going Beyond Two Layers

Zeyuan Allen-Zhu, Yuanzhi Li|arXiv (Cornell University)|2018. 11. 12.

Machine Learning and Algorithms참고 문헌 49인용 수 172

한 줄 요약

이 논문은 overparameterized 신경망이 SGD를 사용하여 two- and three-layer 네트워크의 결과를 다루고 NTK를 넘어서는 학습 접근법을 제시하며, 두- 및 세-층 네트워크를 포함하는 개념 클래스를 효율적으로 학습할 수 있음을 보인다. 또한 제곱(Second-order) 근사 프레임워크를 도입하고 네트워크 크기에 거의 독립적인 샘플 복잡도로 다항 시간 학습 가능성을 보인다.

ABSTRACT

The fundamental learning theory behind neural networks remains largely open. What classes of functions can neural networks actually learn? Why doesn't the trained network overfit when it is overparameterized? In this work, we prove that overparameterized neural networks can learn some notable concept classes, including two and three-layer networks with fewer parameters and smooth activations. Moreover, the learning can be simply done by SGD (stochastic gradient descent) or its variants in polynomial time using polynomially many samples. The sample complexity can also be almost independent of the number of parameters in the network. On the technique side, our analysis goes beyond the so-called NTK (neural tangent kernel) linearization of neural networks in prior works. We establish a new notion of quadratic approximation of the neural network (that can be viewed as a second-order variant of NTK), and connect it to the SGD theory of escaping saddle points.

연구 동기 및 목표

신경망이 provably 배울 수 있는 함수의 기본 문제와 왜 overparameterization이 일반화에 도움이 되는지에 대한 근본 질문을 동기부여한다.
smooth 두- 및 세-층 네트워크가 다항 시간과 샘플 복잡도로 SGD에 의해 효율적으로 학습될 수 있음을 보인다.
SGD 역학을 표준 NTK를 넘어 분석하기 위해 quadratic-approximation(2차 NTK 유사 관점)을 개발·활용한다.
overparameterization이 잠재적으로 복잡한 활성화를 갖는 타깃 함수와 더 작은 모집단 위험을 학습 가능하게 함을 시연한다.]
method:[

제안 방법

target 함수 클래스 포함 two- 및 three-layer 네트워크와 smooth 활성화를 포함하는 대상 함수 클래스를 공식화한다.
가우시안 가중치로 초기화되고 convex/1-Lipschitz 손실을 최소화하도록 학습된 overparameterized 네트워크에서 SGD 역학을 분석한다.
SGD가 saddle 포인트를 탈출하는 것을 연구하기 위한 2차 NTK의 변형으로서 quadratic-approximation 관점을 도입한다.
세 층 설정에서 가중치 감소 정규화와 가우시안 교란을 사용하는 두 단계 SGD를 적용하여 favorable한 풍경 특성을 보장한다.
적절한 초기화와 샘플 크기가 주어지면 SGD가 집합의 최적 타깃 함수에 대해 population risk를 OPT+ε 이내로 달성함을 증명한다.
매개변수 수에 거의 독립적인 다항식 시간 및 다항식 샘플 크기 경계를 제공한다.

실험 결과

연구 질문

RQ1overparameterization 하에서 네트워크가 provably 학습할 수 있는 함수 클래스는 무엇인가?
RQ2SGD가 매개변수 수에 비례하지 않는 샘플 크기로 다항 시간에 이러한 클래스를 효율적으로 학습할 수 있는가?
RQ3NTK를 넘어서(레이어 간 비선형 상호작용) 학습 가능성과 일반화에 어떤 영향이 있는가?
RQ4더 깊은 네트워크에서 overparameterization 및 regularization(가중치 감소)이 일반화를 가능하게 하는 역할은 무엇인가?
RQ5제안된 quadratic approximation이 다층 네트워크의 SGD 역학 및 saddle 포인트 탈출과 어떤 관련이 있는가?

주요 결과

Overparameterized 네트워크가 non-trivial activations를 갖는 two- 및 three-layer 네트워크를 포함하는 개념 클래스를 효율적으로 학습할 수 있다.
SGD 또는 그 변형들이 다항 시간 내에 다항 샘플로 학습할 수 있다.
샘플 복잡도는 매개변수 수(m)와 거의 독립적이며 활성화 복잡도 및 타깃 네트워크 크기에 의존한다.
새로운 quadratic-approximation 프레임워크(second-order NTK)가 SGD 분석을 커널 스타일 선형화 너머의 saddle 포인트 탈출과 연결한다.
두-층 네트워크의 경우, SGD가 활성화 복잡도와 타깃 크기에 비례하는 다항 시간 경계 및 샘플 복잡도로 population risk를 OPT+ε에 달성할 수 있다.
세-층 네트워크의 경우 NTK를 넘어서는 결과를 확장하여 overparameterization 및 regularization 하에서 더 표현력이 높은 타깃 함수의 학습 가능성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.