Skip to main content
QUICK REVIEW

[论文解读] Mean-Field Analysis of Two-Layer Neural Networks: Non-Asymptotic Rates and Generalization Bounds.

Zixiang Chen, Yuan Cao|arXiv (Cornell University)|Feb 10, 2020
Stochastic Gradient Optimization Techniques参考文献 1被引用 2
一句话总结

本文对使用噪声梯度下降和权重衰减训练的两层神经网络进行了平均场分析,建立了非渐近收敛速率和泛化误差界。结果表明,在达到某一精度范围内呈现线性收敛,并在广义神经正切核(generalized neural tangent kernel)框架下表现出类似核的行为,从而在平均场分析与神经正切核分析之间建立了桥梁。

ABSTRACT

A recent line of work in deep learning theory has utilized the mean-field analysis to demonstrate the global convergence of noisy (stochastic) gradient descent for training over-parameterized two-layer neural networks. However, existing results in the mean-field setting do not provide the convergence rate of neural network training, and the generalization error bound is largely missing. In this paper, we provide a mean-field analysis in a generalized neural tangent kernel regime, and show that noisy gradient descent with weight decay can still exhibit a kernel-like behavior. This implies that the training loss converges linearly up to a certain accuracy in such regime. We also establish a generalization error bound for two-layer neural networks trained by noisy gradient descent with weight decay. Our results shed light on the connection between mean field analysis and the neural tangent kernel based analysis.

研究动机与目标

  • 通过为使用噪声梯度下降训练的两层神经网络提供非渐近收敛速率,弥合平均场分析中的空白。
  • 在平均场设置下,为带权重衰减的两层网络推导泛化误差界。
  • 证明在广义神经正切核框架下,带权重衰减的噪声梯度下降表现出类似核的行为。
  • 在过参数化的两层神经网络中,建立平均场分析与基于神经正切核分析之间的理论联系。

提出的方法

  • 分析在广义神经正切核框架下进行,扩展了标准平均场假设的范围。
  • 作者采用平均场极限方法,对噪声梯度下降训练过程中网络权重的演化进行建模。
  • 将权重衰减引入优化动力学中,以正则化训练过程并提升泛化性能。
  • 通过分析控制平均场动力学的福克-普朗克方程中的漂移项和扩散项,推导收敛速率。
  • 在平均场框架下,利用Rademacher复杂度和集中不等式建立泛化误差界。
  • 分析表明,训练动力学始终处于核框架内,从而实现向最优解邻域的线性收敛。

实验结果

研究问题

  • RQ1能否在使用噪声梯度下降训练的两层神经网络的平均场分析中,建立非渐近收敛速率?
  • RQ2在平均场框架下,使用噪声梯度下降与权重衰减训练的两层网络的泛化误差界是什么?
  • RQ3在平均场极限下,引入权重衰减是否能保持类似核的行为?
  • RQ4在过参数化的两层神经网络中,平均场分析如何与神经正切核框架相联系?

主要发现

  • 在平均场框架下,带权重衰减的噪声梯度下降可实现向最优解邻域的线性收敛,精度达到某一阈值。
  • 训练损失呈线性收敛,收敛速率取决于网络宽度和学习率。
  • 在适当假设下,泛化误差被有界于O(1/√n)量级,其中n为训练样本数。
  • 即使引入权重衰减,优化动力学仍保持在核框架内,意味着网络在函数空间中表现如线性模型。
  • 该分析在过参数化设置下,建立了平均场分析与基于神经正切核分析之间的理论联系,显示出二者的一致性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。