Skip to main content
QUICK REVIEW

[论文解读] The loss surface of deep and wide neural networks

Quynh C. Nguyen, Matthias Hein|arXiv (Cornell University)|Apr 26, 2017
Neural Networks and Applications被引用 117
一句话总结

作者证明,对于过度指定(极宽的)神经网络,在温和的解析激活函数和损失假设下,几乎所有局部最小值都是全局最小值,将先前的结果推广到具有金字塔结构的深度网络。

ABSTRACT

While the optimization problem behind deep neural networks is highly non-convex, it is frequently observed in practice that training deep networks seems possible without getting stuck in suboptimal points. It has been argued that this is the case as all local minima are close to being globally optimal. We show that this is (almost) true, in fact almost all local minima are globally optimal, for a fully connected network with squared loss and analytic activation function given that the number of hidden units of one layer of the network is larger than the number of training points and the network structure from this layer on is pyramidal.

研究动机与目标

  • 激发对深度学习中非凸优化的理解,并解释为什么训练在实践中常常成功。
  • 在过度指定下表征深度、宽度很大的神经网络的损失表面。
  • 将先前关于浅层网络的结果推广到具有金字塔结构的多层架构。

提出的方法

  • 将前馈网络表述为具有 L 层且激活函数解析的。
  • 推导梯度(Delta 矩阵)及权重/偏置梯度的反向传播关系。
  • 引入对激活和损失的假设(解析、单调,以及 C^2 损失)并证明层输出是参数的实解析函数的关键引理。
  • 当隐藏层很宽时(n_k ≥ N−1),在参数的测度为1的集合上,秩条件 [F_k, 1_N] = N 成立。
  • 利用实解析函数性质论证秩条件失效的集合为测度零。
  • 应用隐函数定理和非退化性论证,在指定条件下得出临界点的全局最优性。

实验结果

研究问题

  • RQ1在网络宽度和架构的哪些条件下,深度网络中的局部最小值成为全局最小值?
  • RQ2解析激活和损失函数如何影响临界点结构以及全局最优解的普遍性?
  • RQ3已知的浅层网络结果是否可以扩展到具有金字塔形、过度指定结构的多层网络?
  • RQ4隐藏层激活的秩在确保临界点全局最优性中起到什么作用?

主要发现

  • 对于过度指明的网络,许多局部最小值是全局最小值。
  • 如果隐藏层至少有 N−1 个单元(n_k ≥ N−1),在温和假设下,所有具有全秩上层并且非退化的临界点都是全局最优。
  • 当训练样本线性独立时,权重矩阵列秩全满的每个临界点都是全局最小。
  • 在所述条件下,几乎所有临界点都是全局最小,因为由于解析性,出问题的点在测度零集合。
  • 如果上层权重为满秩且保持金字塔结构,退化或低秩的鞍点在实践中不太可能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。