Skip to main content
QUICK REVIEW

[论文解读] SGD Learns the Conjugate Kernel Class of the Network

Amit Daniely|arXiv (Cornell University)|Feb 27, 2017
Stochastic Gradient Optimization Techniques被引用 81
一句话总结

表明在对广泛深度网络族的共轭核空间中,SGD 可以在多项式时间内学习函数,通过对整个网络进行训练并将其与随机初始化后的核动态相关联。

ABSTRACT

We show that the standard stochastic gradient decent (SGD) algorithm is guaranteed to learn, in polynomial time, a function that is competitive with the best function in the conjugate kernel space of the network, as defined in Daniely, Frostig and Singer. The result holds for log-depth networks from a rich family of architectures. To the best of our knowledge, it is the first polynomial-time guarantee for the standard neural network learning algorithm for networks of depth more that two. As corollaries, it follows that for neural networks of any depth between $2$ and $\log(n)$, SGD is guaranteed to learn, in polynomial time, constant degree polynomials with polynomially bounded coefficients. Likewise, it follows that SGD on large enough networks can learn any continuous function (not in polynomial time), complementing classical expressivity results.

研究动机与目标

  • 激励并形式化标准 SGD 在超越深度为 2 的架构的神经网络中何时会成功。
  • 通过随机初始化将神经网络训练与共轭核框架联系起来。
  • 在广泛条件下证明 SGD 在网络核空间中学习函数的多项式时间保证。
  • 给出推论:在充足的网络规模下高效学习常数阶多项式以及学习任何连续函数的结论。

提出的方法

  • 将神经网络建模为具有复制与输出层的计算骨架。
  • 定义与骨架相关的共轭激活函数与组合核。
  • 在 Xavier 风格的随机初始化和预测层零初始化的条件下分析 SGD。
  • 证明在多项式规模的网络、学习率和步数下,SGD 在核空间实现近似最优的损失。
  • 给出将核空间结果转化为实际函数类的推论(多项式、CNF/DNF、连续函数等)。

实验结果

研究问题

  • RQ1在深度结构上,SGD 是否能够在多项式时间内保证学习网络共轭核空间中的任意函数?
  • RQ2网络深度、复制度与激活边界如何影响 SGD 对核空间目标的收敛保证?
  • RQ3通过共轭核框架,SGD 能高效学习哪些函数类(如多项式、逻辑公式、连续函数)?

主要发现

  • SGD 被保证在多项式时间内学习共轭核空间中的常系数阶多项式,系数具有多项式界的界限。
  • SGD 被保证在多项式时间内学习共轭核空间中的连词、DNF/CNF,含有一定常数项/字面量的情况。
  • 对于深度不超过 log(n) 的网络,SGD 能学习共轭核空间中的函数,包括非多项式类别如连续函数(不一定在多项式时间内)。
  • 存在推论表明在核框架内,SGD 可以学习连续函数和某些可 PAC 学习的函数类。
  • 这些结果扩展至具有对数深度的全连接与卷积网络,且卷积层数量为常数。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。