Skip to main content
QUICK REVIEW

[论文解读] No bad local minima: Data independent training error guarantees for multilayer neural networks

Daniel Soudry, Yair Carmon|arXiv (Cornell University)|May 26, 2016
Stochastic Gradient Optimization Techniques参考文献 22被引用 159
一句话总结

论文使用平滑分析证明,在轻度过参数化下,具有分段线性激活函数和二次损失的多层神经网络的所有可微局部极小点在训练误差为零的情形,先针对一隐藏层再扩展到更深的网络。

ABSTRACT

We use smoothed analysis techniques to provide guarantees on the training loss of Multilayer Neural Networks (MNNs) at differentiable local minima. Specifically, we examine MNNs with piecewise linear activation functions, quadratic loss and a single output, under mild over-parametrization. We prove that for a MNN with one hidden layer, the training error is zero at every differentiable local minimum, for almost every dataset and dropout-like noise realization. We then extend these results to the case of more than one hidden layer. Our theoretical guarantees assume essentially nothing on the training data, and are verified numerically. These results suggest why the highly non-convex loss of such MNNs can be easily optimized using local updates (e.g., stochastic gradient descent), as observed empirically.

研究动机与目标

  • 解释为何 SGD 在存在潜在坏局部极小值的情况下仍能成功训练非凸的MNN 损失。
  • 在轻度过参数化下提供与数据无关的训练误差保证。
  • 证明具有一个隐藏层的网络在可微局部极小点处训练误差为零,并扩展到更深的结构。

提出的方法

  • 用分段线性激活并引入类似 dropout 的噪声来建模 MNN,以实现平滑分析。
  • 推导可微局部极小点处的梯度条件,并给出梯度矩阵 G,其秩决定零训练误差。
  • 证明若最后一个隐藏层的参数足够多(N ≤ d_{L-2}d_{L-1}),则可微局部极小点在数据和 dropout 实现的概率为 1 的情况下产生零训练误差。
  • 当 L=2(一个隐藏层)时,证明在 N ≤ d0 d1 时,G1 的秩在几乎处处为 N。
  • 当 L≥3 时,证明通过扰动倒数二层并固定前面层,在 N ≤ d_{L-2}d_{L-1} 的条件下可得到零训练误差的全局极小点。

实验结果

研究问题

  • RQ1在轻度过参数化下,是否可以在具有分段线性激活的 MNN 的可微局部极小点处保证零训练误差?
  • RQ2在平滑分析框架下,网络深度如何影响零训练误差可微局部极小点的存在?
  • RQ3dropout 式噪声和数据扰动是否能使所有可微局部极小点在训练误差上达到全局最优?
  • RQ4梯度矩阵的秩在确保局部极小点零训练误差中起到怎样的作用?

主要发现

  • 对于单隐藏层,如果 N ≤ d0 d1,则所有可微局部极小点几乎处处的训练误差为零。
  • 扩展到多隐藏层时,当 N ≤ d_{L-2} d_{L-1},在固定前面层的情况下扰动最后两层将得到全局极小点,几乎处处训练误差为零。
  • 结果相对于数据和 dropout 实现的 Lebesgue 测度成立,意味着保证与数据无关。
  • 类似 dropout 的噪声确保梯度矩阵 G_{L-1} 具有满列秩,在轻度过参数化下导致 DLMs 的零训练误差。
  • 在可微局部极小点处的 Hessian 为半正定,零误差条件在随机扰动下变得是典型而非病态。
  • 对合成数据和基于 MNIST 的数据集的数值实验表明,在过参数化情形下训练误差接近零。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。