[论文解读] Depth Creates No Bad Local Minima
该论文证明深度本身并不在深度前馈线性网络中产生坏的局部极小值,并且在全行秩条件下所有局部极小值都是全局极小值。它还提供一个更简单的证明,即深度线性网络在平方损失下的所有局部极小值都是全局极小值,并在一个关键定理下扩展到一般的损失函数。
In deep learning, extit{depth}, as well as extit{nonlinearity}, create non-convex loss surfaces. Then, does depth alone create bad local minima? In this paper, we prove that without nonlinearity, depth alone does not create bad local minima, although it induces non-convex loss surface. Using this insight, we greatly simplify a recently proposed proof to show that all of the local minima of feedforward deep linear neural networks are global minima. Our theoretical results generalize previous results with fewer assumptions, and this analysis provides a method to show similar results beyond square loss in deep linear models.
研究动机与目标
- 激发人们理解深度如何促成深度学习中非凸损失面的形成。
- 证明仅凭深度不会在深度线性网络中产生坏的局部极小值。
- 给出一个更简单的证明,在适当条件下,前馈深度线性网络的所有局部极小值都是全局极小值。
- 将结果从 Frobenius(平方)损失扩展到满足一个关键定理的一般损失函数。
- 讨论对矩阵补全及更广泛非凸优化问题的影响。
提出的方法
- 将带平方损失的深度线性网络的训练目标表述为 L(W)=1/2 ||W_H ... W_1 X - Y||_F^2。
- 将深度问题与秩受限的浅层问题 F(R)=||RX-Y||_F^2 且秩(R) <= d_p 联系起来。
- 证明深度问题的每个局部极小值都对应于浅层问题的一个局部极小值(定理 2.1)。
- 证明秩受限浅层问题的所有局部极小值都是全局极小值(定理 2.2)。
- 因此,深度线性网络的所有局部极小值都是全局极小值(定理 2.3)。
- 提供一份基于扰动的构造性证明,利用奇异值分解(SVD)扰动结论和秩的考量(引理 3.1–3.4 与定理 3.1–3.3)。
实验结果
研究问题
- RQ1仅凭深度(无非线性性)会在深度线性网络中引入坏的局部极小值吗?
- RQ2在什么条件下,深度线性网络的局部极小值对应于等效浅层模型的全局极小值?
- RQ3无坏局部极小值性质是否可以扩展到超越 Frobenius(平方)损失的一般损失函数?
- RQ4如何使用 SVD 的扰动理论来将深层与浅层在秩约束方面联系起来?
主要发现
- 带平方损失的深度线性网络的任何局部极小值都会产生一个对应该浅层秩约束模型的局部极小值。
- 若浅层秩约束模型的输入 X 具有满行秩,则所有局部极小值都是全局极小值。
- 因此,在 X 和 Y 满行秩条件下,前馈深度线性网络在平方损失下的所有局部极小值都是全局极小值。
- 结果在更少假设的情况下推广 Kawaguchi(2016),并通过定理 3.2 超越平方损失。
- 该方法为在矩阵补全情景中以高概率扩展无坏局部极小值结果提供了一条路径。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。