Skip to main content
QUICK REVIEW

[论文解读] Mean-field theory of two-layers neural networks: dimension-free bounds and kernel limit

Mei Song, Theodor Misiakiewicz|arXiv (Cornell University)|Feb 16, 2019
Stochastic Gradient Optimization Techniques参考文献 21被引用 93
一句话总结

本文证明了两层网络中 SGD 的平均场近似的维度无关非渐近界,扩展到无界激活函数和带噪的 SGD,并在核极限下将平均场动力学与核岭回归联系起来。

ABSTRACT

We consider learning two layer neural networks using stochastic gradient descent. The mean-field description of this learning dynamics approximates the evolution of the network weights by an evolution in the space of probability distributions in $R^D$ (where $D$ is the number of parameters associated to each neuron). This evolution can be defined through a partial differential equation or, equivalently, as the gradient flow in the Wasserstein space of probability distributions. Earlier work shows that (under some regularity assumptions), the mean field description is accurate as soon as the number of hidden units is much larger than the dimension $D$. In this paper we establish stronger and more general approximation guarantees. First of all, we show that the number of hidden units only needs to be larger than a quantity dependent on the regularity properties of the data, and independent of the dimensions. Next, we generalize this analysis to the case of unbounded activation functions, which was not covered by earlier bounds. We extend our results to noisy stochastic gradient descent. Finally, we show that kernel ridge regression can be recovered as a special limit of the mean field analysis.

研究动机与目标

  • 动机并分析在 SGD 下两层神经网络学习的平均场描述。
  • 推导 SGD 与偏微分方程/平均场动力学之间的维度无关非渐近近似保证。
  • 将分析扩展到无界激活和带噪 SGD。
  • 展示核岭回归如何作为平均场动力学的核极限出现。

提出的方法

  • 将网络建模为一个由 N 个神经元的参数 7θi=(ai,wi) 和激活 σ* 的平均,研究神经元的经验分布 ^(N)。
  • 将平均场演化在分布空间 ρt 上表述为一个偏微分方程,其包含 Ψ 及其分量 V 和 U。
  • 证明维度无关的界,表明 SGD 以误差收敛至 1/√N 的速率,并含有 √(D+log N) 与 √ε 的项。
  • 扩展到带噪的 SGD,导出扩散-偏微分方程,并在加强假设下给出界。
  • 通过一个尺度 α 引入核极限,产生一个与短时/线性化状态下的核岭回归一致的残差动力学。
  • 展示残差与核演化之间的耦合动力学,并通过线性化动力学分析核极限。

实验结果

研究问题

  • RQ1在什么条件下,平均场 PDE 能为两层网络的 SGD 提供维度无关的近似?
  • RQ2无界激活和带噪 SGD 如何影响平均场近似的准确性?
  • RQ3核岭回归能否作为平均场动力学的核极限被恢复?该极限的性质是?
  • RQ4在核/平均场耦合中引入尺度参数 α 时会有哪些变化,它如何影响收敛与残差动力学?
  • RQ5关于 SGD 与平均场描述之间的近似界的定量速率与对 N, D, ε, T 的依赖是什么?

主要发现

  • 隐层单元数 N 需要超过一个与数据正则性相关的量,且与维度 D 无关,才能使平均场近似成立。
  • 在适当条件下,已建立对有界与无界激活的维度无关界。
  • 带噪的 SGD 在固定系数设定下可得到维度无关界,PDE 中含有扩散项,但某些无界系数的情形失去完全的维度无关尺度。
  • 通过短时间线性化动力学,核岭回归可以作为平均场分析的一个特例极限被恢复。
  • 一个耦合残差演化的核极限动力学显示出一个随时间变化、数据相关的核,搭建了平均场 SGD 与核方法之间的桥梁。
  • 结果通过放宽激活界限、加入噪声、以及证明维度无关依赖,扩展了先前工作。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。