Skip to main content
QUICK REVIEW

[论文解读] Neural Tangent Kernel: Convergence and Generalization in Neural Networks

Arthur Paul Jacot, Franck Gabriel|arXiv (Cornell University)|Jun 20, 2018
Neural Networks and Applications参考文献 1被引用 1,508
一句话总结

本文提出了 Neural Tangent Kernel (NTK),证明其无限宽度网络中的确定性极限行为,并展示梯度下降下的训练动力学在函数空间中退化为核梯度下降。

ABSTRACT

At initialization, artificial neural networks (ANNs) are equivalent to Gaussian processes in the infinite-width limit, thus connecting them to kernel methods. We prove that the evolution of an ANN during training can also be described by a kernel: during gradient descent on the parameters of an ANN, the network function $f_θ$ (which maps input vectors to output vectors) follows the kernel gradient of the functional cost (which is convex, in contrast to the parameter cost) w.r.t. a new kernel: the Neural Tangent Kernel (NTK). This kernel is central to describe the generalization features of ANNs. While the NTK is random at initialization and varies during training, in the infinite-width limit it converges to an explicit limiting kernel and it stays constant during training. This makes it possible to study the training of ANNs in function space instead of parameter space. Convergence of the training can then be related to the positive-definiteness of the limiting NTK. We prove the positive-definiteness of the limiting NTK when the data is supported on the sphere and the non-linearity is non-polynomial. We then focus on the setting of least-squares regression and show that in the infinite-width limit, the network function $f_θ$ follows a linear differential equation during training. The convergence is fastest along the largest kernel principal components of the input data with respect to the NTK, hence suggesting a theoretical motivation for early stopping. Finally we study the NTK numerically, observe its behavior for wide networks, and compare it to the infinite-width limit.

研究动机与目标

  • 理解全连接神经网络在无限宽度极限下的训练动力学行为。
  • 证明网络函数相对于极限 NTK 遵循核梯度下降。
  • 建立极限 NTK 为正定并因此保证收敛的条件。
  • 将神经网络训练与核方法联系起来,并解释对泛化和提前停止的影响。

提出的方法

  • 给出具有 Lipschitz 非线性且随机高斯初始化的全连接网络的定义。
  • 引入 Neural Tangent Kernel (NTK) 并证明其在层宽度趋于无穷大时收敛到确定性极限。
  • 证明在无限宽度极限下,NTK 在训练过程中保持恒定。
  • 推导在最小二乘损失下支配网络函数的线性微分方程。
  • 通过核梯度下降和数据的核主成分分析来分析收敛性。
  • 提供将有限宽度网络与无限宽度理论进行比较的数值实验。

实验结果

研究问题

  • RQ1NTK 是否在无限宽度极限下收敛为确定性的极限核?
  • RQ2NTK 在训练过程中是否保持恒定,从而实现对训练动力学的函数空间描述?
  • RQ3在什么条件下,极限 NTK 为正定,因此保证收敛?
  • RQ4在最小二乘损失下的训练如何与核主成分及提前停止相关?
  • RQ5在实践中,有限宽度网络与无限宽度NTK理论的近似有多好?

主要发现

  • 初始化时的网络函数收敛于高斯过程,且随着宽度趋于无穷,NTK 以概率收敛到确定性极限。
  • 在训练过程中,NTK 逐渐保持近似恒定,使得梯度下降可以被描述为在函数空间中的核梯度下降。
  • 对于非多项式的 Lipschitz 非线性以及球面数据,极限 NTK 在深度至少为二时为正定,从而确保收敛。
  • 在最小二乘回归下,训练动力学简化为由 NTK 支配的线性微分方程,收敛在最大的核主成分上最快。
  • 数值实验表明宽网络接近无限宽度极限,且训练过程中 NTK 保持接近其极限。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。