QUICK REVIEW

[论文解读] Local minima in training of neural networks

Grzegorz Świrszcz, Wojciech Marian Czarnecki|arXiv (Cornell University)|Nov 19, 2016

Stochastic Gradient Optimization Techniques参考文献 25被引用 39

一句话总结

本文证明，在全连接ReLU网络的损失曲面中，即使在小数据集和浅层网络的简单设置下，次优局部极小值也依然可能存在。通过构建明确的反例，其中梯度下降收敛到较差的解，作者表明：在缺乏对数据和网络结构的强假设条件下，不存在坏局部极小值并非必然成立。

ABSTRACT

There has been a lot of recent interest in trying to characterize the error surface of deep models. This stems from a long standing question. Given that deep networks are highly nonlinear systems optimized by local gradient methods, why do they not seem to be affected by bad local minima? It is widely believed that training of deep models using gradient methods works so well because the error surface either has no local minima, or if they exist they need to be close in value to the global minimum. It is known that such results hold under very strong assumptions which are not satisfied by real models. In this paper we present examples showing that for such theorem to be true additional assumptions on the data, initialization schemes and/or the model classes have to be made. We look at the particular case of finite size datasets. We demonstrate that in this scenario one can construct counter-examples (datasets or initialization schemes) when the network does become susceptible to bad local minima over the weight space.

研究动机与目标

研究在全连接ReLU网络中，次优局部极小值是否可能存在于训练损失曲面中，特别是在小规模、全连接的ReLU网络中。
构建明确的、最小化的数据集和网络配置，使网络收敛于次优局部极小值而非全局极小值。
挑战主流假设，即由于高维几何结构的存在，坏局部极小值在深度学习中罕见或不存在。
提供具体的反例，揭示现有理论关于神经网络损失曲面良性结构的主张所存在的局限性。
通过识别标准训练过程中的失败案例，为设计更优的优化算法提供依据。

提出的方法

作者定义了一个特定的网络架构，包含单个ReLU隐藏层和最终的线性输出层，使用均方误差损失。
他们构建了一个数据集，其中至少包含一个输入点的标签分布与整体均值不同，从而确保数据集是‘合理’的，且非平凡可分。
定义一个超平面，将唯一一个特殊点与其他所有点分离，并设计一个权重矩阵，使得隐藏层的前三个神经元仅在该点被激活。
网络结构被设计为：除该唯一点外，所有其他点的隐藏层输出均为零；而在该点，隐藏层输出通过线性组合产生正确的标签。
证明了在该构造点的损失严格高于另一种配置下的损失，即网络对所有输入均预测全局均值的情况。
该证明依赖于均方误差损失在均值附近的严格凸性，表明若该点的标签均值不同于整体标签均值，则该构造点不可能是全局最小值。

实验结果

研究问题

RQ1在小规模、真实数据集上使用梯度下降训练的全连接ReLU网络中，次优局部极小值是否可能存在？
RQ2在何种数据和网络结构条件下，训练过程会无法收敛到全局最小值？
RQ3坏局部极小值在深度学习中不存在是否为普遍性质，还是依赖于对数据和模型结构的特定假设？
RQ4能否构造出明确的反例，以挑战高维优化中关于损失曲面良性结构的理论主张？
RQ5数据和网络架构的哪些结构性特征会导致训练过程中出现次优局部极小值？

主要发现

本文构建了一个全连接ReLU网络的明确实例，该网络具有单个隐藏层，其训练过程收敛于一个损失高于全局最小值的局部极小值。
该构造的局部极小值出现在网络学习预测唯一输入点的标签均值时，而全局极小值则对应于对所有输入均预测整体标签均值。
当该唯一点的标签均值不同于整体标签均值时，此类局部极小值的存在可被证明，而这一条件在‘合理’数据集中是保证成立的。
由于均方误差损失在均值附近的严格凸性，该局部极小值的损失严格高于全局极小值。
即使对于仅在第一层包含三个神经元的小型网络，该结果依然成立，表明坏局部极小值并非仅存在于复杂架构中。
本文表明，在缺乏对数据分布和网络结构的强假设条件下，坏局部极小值的不存在性并非必然，从而挑战了‘无坏局部极小值’的假设。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。