QUICK REVIEW

[论文解读] Generalization Bounds of Stochastic Gradient Descent for Wide and Deep Neural Networks

Yuan Cao, Quanquan Gu|arXiv (Cornell University)|May 30, 2019

Stochastic Gradient Optimization Techniques参考文献 41被引用 93

一句话总结

本文证明，使用 SGD 训练的宽深 ReLU 网络在泛化界限上与神经切线随机特征参考类相匹配，速率 ~n^{-1/2}，与网络宽度无关，前提是数据可被 NTRF 模型分类，并且与 NTK 理论相关。

ABSTRACT

We study the training and generalization of deep neural networks (DNNs) in the over-parameterized regime, where the network width (i.e., number of hidden nodes per layer) is much larger than the number of training data points. We show that, the expected $0$-$1$ loss of a wide enough ReLU network trained with stochastic gradient descent (SGD) and random initialization can be bounded by the training loss of a random feature model induced by the network gradient at initialization, which we call a neural tangent random feature (NTRF) model. For data distributions that can be classified by NTRF model with sufficiently small error, our result yields a generalization error bound in the order of $ ilde{\mathcal{O}}(n^{-1/2})$ that is independent of the network width. Our result is more general and sharper than many existing generalization error bounds for over-parameterized neural networks. In addition, we establish a strong connection between our generalization error bound and the neural tangent kernel (NTK) proposed in recent work.

研究动机与目标

激励并分析在用 SGD 训练的深度 ReLU 网络的过参数化阶段的泛化。
引入神经切线随机特征（NTRF）参考类作为数据可判定性度量。
提供与算法相关的泛化界限，不依赖于网络宽度。
建立基于 NTRF 的界限与神经切线核（NTK）理论之间的联系。
显示相较于先前的两层结果，样本复杂度界限的改进。

提出的方法

定义一个宽度为 m、深度为 L 的全连接深度 ReLU 网络，并使用高斯 He 初始化。
基于初始化时网络梯度，引入神经切线随机特征（NTRF）函数类。
利用参数近线性性质，证明在初始化附近的 SGD 累积损失界。
通过在线到批转换推导期望的 0-1 错误界，并将其与 NTRF 类相关联。
通过 NTK 矩阵 Θ^(L) 将界限与神经切线核（NTK）连接起来，并给出一个基于 NTK 的界限的推论。

实验结果

研究问题

RQ1在何种条件下，使用 SGD 训练的宽深 ReLU 网络可以达到较小的泛化误差？
RQ2相对于 NTRF 参考类的数据可判定性如何影响泛化界限？
RQ3对于深度网络，SGD 泛化界限与神经切线核理论之间的关系是什么？
RQ4分析是否能扩展到所有参数训练的深层结构，超越两层网络？

主要发现

经过 SGD 训练的宽 ReLU 网络的期望 0-1 错误可以被 NTRF 参考类上的训练损失所界限。
当数据可以被 NTRF 模型以小误差分类时，该界限的尺度为 ~tilde{O}(n^{-1/2})，且与网络宽度无关。
该界限与 NTK 联系起来，给出一个核式表达 ~ tilde{O}(L * sqrt(y^T Θ^(L)^{-1} y / n))。
该结果超出两层网络的范围，且比以往基于随机特征的分析给出更锋利的界限。
推论 3.10 给出一个基于 NTK 的界限，与宽度无关，并依赖于 NTK 矩阵 Θ^(L)。
该框架意味着如果目标函数具有有界的由 NTK 诱导的 RKHS 范数，SGD 能很好地泛化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。