Skip to main content
QUICK REVIEW

[论文解读] Generalization Bounds of Stochastic Gradient Descent for Wide and Deep Neural Networks

Yuan Cao, Quanquan Gu|arXiv (Cornell University)|May 30, 2019
Stochastic Gradient Optimization Techniques参考文献 41被引用 93
一句话总结

本文证明,使用 SGD 训练的宽深 ReLU 网络在泛化界限上与神经切线随机特征参考类相匹配,速率 ~n^{-1/2},与网络宽度无关,前提是数据可被 NTRF 模型分类,并且与 NTK 理论相关。

ABSTRACT

We study the training and generalization of deep neural networks (DNNs) in the over-parameterized regime, where the network width (i.e., number of hidden nodes per layer) is much larger than the number of training data points. We show that, the expected $0$-$1$ loss of a wide enough ReLU network trained with stochastic gradient descent (SGD) and random initialization can be bounded by the training loss of a random feature model induced by the network gradient at initialization, which we call a neural tangent random feature (NTRF) model. For data distributions that can be classified by NTRF model with sufficiently small error, our result yields a generalization error bound in the order of $ ilde{\mathcal{O}}(n^{-1/2})$ that is independent of the network width. Our result is more general and sharper than many existing generalization error bounds for over-parameterized neural networks. In addition, we establish a strong connection between our generalization error bound and the neural tangent kernel (NTK) proposed in recent work.

研究动机与目标

  • 激励并分析在用 SGD 训练的深度 ReLU 网络的过参数化阶段的泛化。
  • 引入神经切线随机特征(NTRF)参考类作为数据可判定性度量。
  • 提供与算法相关的泛化界限,不依赖于网络宽度。
  • 建立基于 NTRF 的界限与神经切线核(NTK)理论之间的联系。
  • 显示相较于先前的两层结果,样本复杂度界限的改进。

提出的方法

  • 定义一个宽度为 m、深度为 L 的全连接深度 ReLU 网络,并使用高斯 He 初始化。
  • 基于初始化时网络梯度,引入神经切线随机特征(NTRF)函数类。
  • 利用参数近线性性质,证明在初始化附近的 SGD 累积损失界。
  • 通过在线到批转换推导期望的 0-1 错误界,并将其与 NTRF 类相关联。
  • 通过 NTK 矩阵 Θ^(L) 将界限与神经切线核(NTK)连接起来,并给出一个基于 NTK 的界限的推论。

实验结果

研究问题

  • RQ1在何种条件下,使用 SGD 训练的宽深 ReLU 网络可以达到较小的泛化误差?
  • RQ2相对于 NTRF 参考类的数据可判定性如何影响泛化界限?
  • RQ3对于深度网络,SGD 泛化界限与神经切线核理论之间的关系是什么?
  • RQ4分析是否能扩展到所有参数训练的深层结构,超越两层网络?

主要发现

  • 经过 SGD 训练的宽 ReLU 网络的期望 0-1 错误可以被 NTRF 参考类上的训练损失所界限。
  • 当数据可以被 NTRF 模型以小误差分类时,该界限的尺度为 ~tilde{O}(n^{-1/2}),且与网络宽度无关。
  • 该界限与 NTK 联系起来,给出一个核式表达 ~ tilde{O}(L * sqrt(y^T Θ^(L)^{-1} y / n))。
  • 该结果超出两层网络的范围,且比以往基于随机特征的分析给出更锋利的界限。
  • 推论 3.10 给出一个基于 NTK 的界限,与宽度无关,并依赖于 NTK 矩阵 Θ^(L)。
  • 该框架意味着如果目标函数具有有界的由 NTK 诱导的 RKHS 范数,SGD 能很好地泛化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。