QUICK REVIEW

[论文解读] Learning and Generalization in Overparameterized Neural Networks, Going Beyond Two Layers

Zeyuan Allen-Zhu, Yuanzhi Li|arXiv (Cornell University)|Nov 12, 2018

Machine Learning and Algorithms参考文献 49被引用 172

一句话总结

论文证明了超参数化神经网络可以高效学习超出两层的概念类，使用SGD，结果覆盖两层和三层网络，并且学习方法超越NTK。它引入二次（二阶）近似框架，并显示多项式时间可学习，样本复杂度几乎与网络规模无关。

ABSTRACT

The fundamental learning theory behind neural networks remains largely open. What classes of functions can neural networks actually learn? Why doesn't the trained network overfit when it is overparameterized? In this work, we prove that overparameterized neural networks can learn some notable concept classes, including two and three-layer networks with fewer parameters and smooth activations. Moreover, the learning can be simply done by SGD (stochastic gradient descent) or its variants in polynomial time using polynomially many samples. The sample complexity can also be almost independent of the number of parameters in the network. On the technique side, our analysis goes beyond the so-called NTK (neural tangent kernel) linearization of neural networks in prior works. We establish a new notion of quadratic approximation of the neural network (that can be viewed as a second-order variant of NTK), and connect it to the SGD theory of escaping saddle points.

研究动机与目标

激发神经网络在可证明学习哪些函数以及为何过参数化有助于泛化的基本问题。
证明光滑的两层和三层网络可以通过SGD在多项式时间和样本复杂度下高效学习。
构建并利用二次近似（类NTK的二阶）框架来分析超越标准NTK的SGD动力学。
证明过参数化允许学习具有潜在复杂激活的目标函数并获得更小的总体风险。

提出的方法

构建一个目标函数类，包含带有平滑激活的两层和三层网络。
在高参数化网络上，使用高斯权重初始化并训练以最小化凸/1-Lipschitz损失，分析SGD动力学。
引入二次近似视角，作为NTK的二阶变体来研究SGD逃离马鞍点。
在三层情形中，采用权重衰减正则化和带高斯扰动的两阶段SGD，以确保有利的损景属性。
证明，在给定適当初始化和样本量的情况下，SGD达到类中最佳目标函数的总体风险在ε内（OPT+ε）。
给出多项式时间和多项式样本规模界，几乎与参数数量无关。

实验结果

研究问题

RQ1超过两层的神经网络在过参数化下可以可证明学习哪些函数类？
RQ2SGD是否能够以多项式时间和样本量学习这些类，样本量不随参数数量增长？
RQ3超越NTK（跨层非线性相互作用）如何影响可学习性和泛化？
RQ4过参数化和正则化（权重衰减）在使更深网络获得泛化中起什么作用？
RQ5提出的二次近似与多层网络中的SGD动力学和鞍点逃逸有何关联？

主要发现

超参数化网络可以高效学习包含带有非平凡激活的两层和三层网络的概念类。
学习可以通过SGD或其变体在多项式时间和多项式数量的样本下实现。
样本复杂度几乎与参数数量(m)无关，取决于激活复杂性和目标网络大小。
新的二次近似框架（二阶NTK）将SGD分析与超越核线性化的鞍点逃逸联系起来。
对于两层网络，SGD可以在多项式时间界和随激活复杂性与目标大小变化的样本复杂度下达到总体风险OPT+ε。
对于三层网络，结果超越NTK，显示在过参数化和正则化下可学习更具表达性的目标函数。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。