QUICK REVIEW

[论文解读] Gradient Descent Provably Optimizes Over-parameterized Neural Networks

Simon S. Du, Xiyu Zhai|arXiv (Cornell University)|Oct 4, 2018

Stochastic Gradient Optimization Techniques参考文献 29被引用 418

一句话总结

该论文证明，在参数过度化的两层 ReLU 网络中，具有随机初始化的梯度下降对训练损失在全局范围内达到最小值，且在较弱假设下实现线性收敛。

ABSTRACT

One of the mysteries in the success of neural networks is randomly initialized first order methods like gradient descent can achieve zero training loss even though the objective function is non-convex and non-smooth. This paper demystifies this surprising phenomenon for two-layer fully connected ReLU activated neural networks. For an $m$ hidden node shallow neural network with ReLU activation and $n$ training data, we show as long as $m$ is large enough and no two inputs are parallel, randomly initialized gradient descent converges to a globally optimal solution at a linear convergence rate for the quadratic loss function. Our analysis relies on the following observation: over-parameterization and random initialization jointly restrict every weight vector to be close to its initialization for all iterations, which allows us to exploit a strong convexity-like property to show that gradient descent converges at a global linear rate to the global optimum. We believe these insights are also useful in analyzing deep models and other first order methods.

研究动机与目标

揭示为何随机初始化的一阶方法能够在过参数化的 ReLU 网络中找到全局最小值。
在非凸、非光滑目标下，提供对两层网络上梯度下降的严格收敛性分析。
表明过参数化和随机初始化使权重维持接近初始化，从而使分析具备类似凸的问题的性质。
将这些见解扩展到对更深模型及其他一阶方法的分析。

提出的方法

模型：两层全连接 ReLU 网络，函数形式为 f(W,a,x) = (1/√m) ∑_r a_r σ(w_r^T x)。
在保持第二层不变的情况下对第一层使用梯度下降进行优化，然后扩展到联合训练。
引入 Gram 矩阵 H(t)，其分量 H_ij(t) = (1/m) x_i^T x_j ∑_r I{w_r^T x_i ≥ 0, w_r^T x_j ≥ 0}。
证明预测值 u_i(t) 的演化满足 du/dt = H(t)(y−u)，将收敛性与 H∞（在随机权重下的初始化 Gram 矩阵）的谱联系起来。
证明在充分大的 m 下（且任意两输入不平行），λ_min(H(0)) ≥ (3/4)λ0 且 ∥H(t)−H(0)∥2 ≤ O(1/√m)。
给出步长为 η = O(λ0/n^2) 的离散时间梯度下降结果，得到线性收敛。

实验结果

研究问题

RQ1在什么条件下梯度下降会收敛到零训练损失的两层 ReLU 网络？
RQ2过参数化和随机初始化如何影响学习过程的动态？
RQ3训练动态是否可以被一个稳定的 Gram 矩阵来表征，从而实现类似凸优化的收敛分析？
RQ4该分析是否可扩展到对两层的联合训练，还是仅限于第一层？
RQ5收敛速度是多少，以及保证线性收敛所需的宽度 m 是多少？

主要发现

当 m = Ω(n^6/λ0^4 δ^3) 且任意两输入不平行时，梯度下降以线性速率收敛到零训练损失。
预测的动态由随时间变化的 Gram 矩阵 H(t) 支配，在过参数化下它保持接近初始化的 H∞。
在高概率意义下，如果输入不平行，则 H(0) 的最小特征值为正，从而实现线性收敛。
对于梯度流，训练过程中与初始化的距离保持有界（权重保持接近初始值）。
对两层的联合训练在类似的过参数化条件下也得到相同的线性收敛。
常数步长 η = O(λ0/n^2) 的离散时间梯度下降达到相同的线性收敛速率。
该分析依赖于标准的集中性界和扰动理论，不需要高斯输入或标签生成的假设。
该框架提示有望推广到更深的网络和其他一阶方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。