QUICK REVIEW

[论文解读] Spurious Local Minima are Common in Two-Layer ReLU Neural Networks

Itay Safran, Ohad Shamir|arXiv (Cornell University)|Dec 24, 2017

Neural Networks and Applications参考文献 22被引用 77

一句话总结

本文证明在高斯输入下训练两层 ReLU 网络时，存在伪局部极小值，且随网络大小增多，过参数化可缓解它们。

ABSTRACT

We consider the optimization problem associated with training simple ReLU neural networks of the form $\mathbf{x}\mapsto \sum_{i=1}^{k}\max\{0,\mathbf{w}_i^ op \mathbf{x}\}$ with respect to the squared loss. We provide a computer-assisted proof that even if the input distribution is standard Gaussian, even if the dimension is arbitrarily large, and even if the target values are generated by such a network, with orthonormal parameter vectors, the problem can still have spurious local minima once $6\le k\le 20$. By a concentration of measure argument, this implies that in high input dimensions, \emph{nearly all} target networks of the relevant sizes lead to spurious local minima. Moreover, we conduct experiments which show that the probability of hitting such local minima is quite high, and increasing with the network size. On the positive side, mild over-parameterization appears to drastically reduce such local minima, indicating that an over-parameterization assumption is necessary to get a positive result in this setting.

研究动机与目标

在总体损失下研究带高斯输入的两层 ReLU 网络训练时是否存在伪局部极小值。
量化网络规模 (k) 与神经元数量 (n) 如何影响伪局部极小值的存在性与可能性。
提供严格的证明策略，以证实非全局极小值的存在并探索缓解条件。
探索梯度下降在遇到伪局部极小值时的经验行为，以及过参数化的影响。

提出的方法

分析目标函数 min_w1..wn E_x~N(0,I)[1/2( sum_i [wi^T x]_+ - sum_j [vj^T x]_+)^2]，其中 vj 为正交单位向量。
采用计算机辅助证明方法，通过梯度、Hessian 和 Taylor 余项界来证实伪局部极小值的存在。
推导 F、其梯度和 Hessian 的闭式表达式，利用期望的 ReLU 相互作用 f(w,v)=E[[w^T x]_+[v^T x]_+]。
应用三阶可微框架与 Taylor 展开，证明当梯度接近 0 且 Hessian 正定时，点靠近局部极小值。
利用过参数化（n>k）来评估缓解效应并提供经验证据。
使用保证精度算术（VPA）来证明数值界限并排除浮点误差。

实验结果

研究问题

RQ1在高斯输入下，当 k 取 6 到 20（且 v_i 为正交）时，双层 ReLU 网络的总体损失是否存在伪局部极小值？
RQ2过参数化（n>k）如何影响伪局部极小值的存在性？
RQ3随着 k 和 n 的变化，随机初始化的梯度下降收敛到伪局部极小值的经验概率是多少？
RQ4是否存在一个严格的证明框架，利用梯度/Hessian 和 Taylor 余项界来证明非全局极小值的存在？
RQ5高维性和随机 v_i 的接近正交性在实际中如何影响景观？

主要发现

对于 6 ≤ k ≤ 20 且 n = k（以及某些接近相等的(k,n)对，n = k+1 或 n = k+2），该目标存在伪局部极小值。
经验结果显示，收敛到伪局部极小值的概率随网络规模增大而增加，且在 n ≈ k 时尤为显著。
过参数化（n ≥ k+2）在测试范围内显著降低或消除观察到的伪局部极小值（直到 k,n ≤ 20）。
作者提供将梯度/Hessian 条件与 Taylor 展开结合的形式化证明策略，以证明局部非全局极小值。
使用保证精度算术的数值证书验证了这些极小值及其正定 Hessians 的存在，避免浮点误差陷阱。
示例中观测到对称、结构化的局部极小值，其权重接近目标神经元。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。