Skip to main content
QUICK REVIEW

[论文解读] Globally Optimal Gradient Descent for a ConvNet with Gaussian Inputs

Alon Brutzkus, Amir Globerson|arXiv (Cornell University)|Feb 26, 2017
Stochastic Gradient Optimization Techniques参考文献 27被引用 78
一句话总结

本文在一般情况下证明了学习无重叠卷积神经网络的 NP 难度,并显示梯度下降在高斯输入下全局收敛到最优解;同时指出重叠的滤波器会破坏全局最优性。

ABSTRACT

Deep learning models are often successfully trained using gradient descent, despite the worst case hardness of the underlying non-convex optimization problem. The key question is then under what conditions can one prove that optimization will succeed. Here we provide a strong result of this kind. We consider a neural net with one hidden layer and a convolutional structure with no overlap and a ReLU activation function. For this architecture we show that learning is NP-complete in the general case, but that when the input distribution is Gaussian, gradient descent converges to the global optimum in polynomial time. To the best of our knowledge, this is the first global optimality guarantee of gradient descent on a convolutional neural network with ReLU activations.

研究动机与目标

  • 为具有 ReLU 激活且无重叠的一隐藏层卷积网络的学习问题提供动机与形式化定义。
  • 展示对一般数据分布的 hardness 结果(NP-完全学习)。
  • 确立随分布相关的可行性:在高斯输入下梯度下降收敛到全局最优解。
  • 描述非重叠与有重叠滤波设置之间的差异。
  • 提供关于高斯与非高斯输入的可行性差距的经验性示例。

提出的方法

  • 将网络定义为 f(x;w) = (1/k) ∑_i σ(w · x[i]),具有无重叠结构并进行平均池化。
  • 在高斯输入下,将总体风险 ell(w) 表达为 g(u,v) = E[ σ(u·x) σ(v·x) ],并推导 g 及其梯度的显式形式(引理 3.1 与 3.2)。
  • 专门化到无重叠网络以获得取决于 ||w||、||w*|| 以及 w 与 w* 之间夹角 theta 的简化损失 l(w)(式 (8))。
  • 通过从 Set-Splitting-by-k-Sets 的归约在一般分布设定下证明学习无重叠网络的 NP 难性(定理 4.2)。
  • 证明在高斯输入下梯度下降收敛到近似全局最优解,包括临界点的刻画以及高概率 O(1/ε^2) 的迭代界(定理 5.2)。
  • 给出可行性差距的经验演示并讨论带重叠滤波的行为(第 6 与第 7 节)。

实验结果

研究问题

  • RQ1在一般输入分布下学习无重叠卷积网络(ReLU 激活)是否 NP 难?
  • RQ2在高斯输入分布下,是否可以让梯度下降收敛到无重叠网络的全局最优解,且复杂度如何?
  • RQ3含有重叠滤波是否影响全局最优解的存在及梯度下降的行为?
  • RQ4经验结果是否与在高斯输入下的理论可行性以及一般情况下的 hardness 相一致?

主要发现

  • 在不受限制的输入分布下学习无重叠网络是 NP 完整的(通过 Set-Splitting-by-k-Sets 的规约)。
  • 对于高斯输入分布,梯度下降在多项式时间内收敛到总体风险的全局最优解(O(1/ε^2) 次迭代;并且以高概率)。
  • 无重叠网络的总体损失具有三个临界点:在 w = 0 处的局部极大值、唯一的全局最小值在 w = w*、以及退化的鞍点;这些性质支持收敛性保证。
  • 带有重叠滤波的网络存在非全局的局部极小值及非平凡的次优区域,随机重新初始化在经验上有助于找回全局最小值。
  • 经验性实验表明对高斯数据的梯度型优化能成功,但对非高斯数据可能陷入困境,体现了可行性差距。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。