[论文解读] Small nonlinearities in activation functions create bad local minima in neural networks
本文证明,即使在激活函数中存在微小的非线性(如 ReLU、sigmoid 或 tanh),在一隐藏层神经网络的损失曲面中也会产生虚假局部极小值。在最小假设条件下(非线性不可分数据),作者通过构造性证明展示了存在无穷多个不良局部极小值,从而挑战了‘在非线性网络中局部极小值即为全局最优’的观念。
We investigate the loss surface of neural networks. We prove that even for one-hidden-layer networks with "slightest" nonlinearity, the empirical risks have spurious local minima in most cases. Our results thus indicate that in general "no spurious local minima" is a property limited to deep linear networks, and insights obtained from linear networks may not be robust. Specifically, for ReLU(-like) networks we constructively prove that for almost all practical datasets there exist infinitely many local minima. We also present a counterexample for more general activations (sigmoid, tanh, arctan, ReLU, etc.), for which there exists a bad local minimum. Our results make the least restrictive assumptions relative to existing results on spurious local optima in neural networks. We complete our discussion by presenting a comprehensive characterization of global optimality for deep linear networks, which unifies other results on this topic.
研究动机与目标
- 探究虚假局部极小值是否存在于非线性神经网络中,以挑战‘局部极小值即为全局最优’的假设。
- 解决先前研究的局限性,这些研究依赖于高斯数据或可实现性等限制性假设。
- 证明即使激活函数中存在微弱非线性,也会在实际设置中导致不良局部极小值。
- 为深度线性网络提供全局最优性的全面表征,以与非线性情形形成对比。
- 通过严谨的理论框架,统一并扩展现有关于线性网络中全局最优性的结果。
提出的方法
- 在最小假设下(非线性不可分数据),通过构造性证明在一隐藏层 ReLU 网络中存在虚假局部极小值。
- 利用矩阵分解和秩条件,将全网络的全局最优性与约化经验风险函数 ℓ₀(R) 关联起来,其中 R 为复合权重矩阵。
- 运用奇异值分解(SVD)和矩阵扰动理论,证明在完整行/列满秩条件下,全网络的任意局部极小值对应于 ℓ₀(R) 的局部极小值。
- 证明:若某点是全网络的局部极小值,且中间权重矩阵具有满秩,则复合权重矩阵 R 必须是 ℓ₀(R) 的局部极小值。
- 通过矩阵秩和范数约束,建立全网络全局极小值与 ℓ₀(R) 全局极小值之间的等价性。
- 将上述结果应用于深度线性网络,证明全局极小值等价于最小化 ℓ₀(R),从而统一文献中既有的结果。
实验结果
研究问题
- RQ1ReLU 或 sigmoid 等激活函数中的微小非线性是否会导致神经网络中出现虚假局部极小值?
- RQ2是否可以在最小假设下(特别是无需高斯数据或可实现性)构造虚假局部极小值?
- RQ3‘局部极小值即为全局最优’的性质是否适用于非线性网络,还是仅限于线性网络?
- RQ4全网络的局部极小值与复合权重矩阵的约化经验风险 ℓ₀(R) 的局部极小值之间有何关系?
- RQ5深度线性网络的全局最优性与 ℓ₀(R) 的最小化有何关联?能否将现有结果统一于此框架下?
主要发现
- 对于一隐藏层 ReLU 网络,几乎所有实际的非线性不可分数据集均存在虚假局部极小值。
- 作者在最弱已知假设下(非线性不可分数据)构造性地证明了 ReLU 网络中存在无穷多个不良局部极小值。
- 针对一般激活函数(如 sigmoid、tanh、arctan、ReLU)提供了反例,表明即使非线性程度极低,不良局部极小值也可能存在。
- 该结果无需假设输入数据为高斯分布或可实现性,因此比先前工作更具普适性。
- 本文确立了‘局部极小值即为全局最优’的性质无法推广至非线性网络,而主要局限于深度线性网络。
- 为深度线性网络的全局最优性提供了全面表征,统一了先前研究,表明全网络的全局极小值与 ℓ₀(R) 的最小化等价。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。