Skip to main content
QUICK REVIEW

[论文解读] On the linearity of large non-linear models: when and why the tangent kernel is constant

Chaoyue Liu, Libin Zhu|arXiv (Cornell University)|Oct 2, 2020
Stochastic Gradient Optimization Techniques参考文献 20被引用 33
一句话总结

本文解释了为什么宽度很大的非线性神经网络在参数维度随宽度增长而趋于线性,原因在于 Hessian 的尺度化,并阐明了切线核何时保持不变或不变。

ABSTRACT

The goal of this work is to shed light on the remarkable phenomenon of transition to linearity of certain neural networks as their width approaches infinity. We show that the transition to linearity of the model and, equivalently, constancy of the (neural) tangent kernel (NTK) result from the scaling properties of the norm of the Hessian matrix of the network as a function of the network width. We present a general framework for understanding the constancy of the tangent kernel via Hessian scaling applicable to the standard classes of neural networks. Our analysis provides a new perspective on the phenomenon of constant tangent kernel, which is different from the widely accepted "lazy training". Furthermore, we show that the transition to linearity is not a general property of wide neural networks and does not hold when the last layer of the network is non-linear. It is also not necessary for successful optimization by gradient descent.

研究动机与目标

  • 澄清在宽神经网络中,切线核的恒定性与模型线性之间的关系。
  • 识别驱动宽度增大时向线性转变的 Hessian 缩放性质。
  • 建立切线核保持不变或不保持不变的条件。
  • 将此现象与懒惰训练叙事区分开来,并解释其局限性。
  • 提供理论与实验见解,说明网络结构如何影响 NTK 行为。

提出的方法

  • 定义并分析切线核 K(w) = ∇w f(w; x)^T ∇w f(w; z) 及其与线性的关系。
  • 证明当且仅当切线核恒定时,f 在 w 上是线性的(命题 2.2)。
  • 推导出通过小的 Hessian 范数得到近似恒定切线核的充分条件(命题 2.3)。
  • 建立一个通用的 Hessian 缩放框架,将 Hessian 范数与逐层导数的无穷范数以及高阶张量的 (2,1,1)-范数联系起来。
  • 给出深度网络的 Hessian 上界,表明它可以被偏导数的无穷范数以及来自输出层的 1/√m 因子所控制(定理 3.1)。
  • 证明当最后一层非线性或插入瓶颈时,切线核不恒定的情况可能出现,并讨论对优化的影响。

实验结果

研究问题

  • RQ1在网络宽度增大时,切线核在何种条件下保持不变?
  • RQ2Hessian 缩放如何与网络的宽度和结构相关,从而产生线性?
  • RQ3转变为线性是否依赖于懒惰训练或模型重新缩放,何时会失效?
  • RQ4哪些网络结构特征会破坏近似线性和 NTK 恒定性,以及这如何影响基于梯度的优化?

主要发现

  • 切线核当且仅当模型在参数上线性时才恒定。
  • 对于输出层为线性的网络,Hessian 范数随宽度缩小,导致在无穷宽极限下 Hessian 消失和切线核保持恒定。
  • Hessian 谱范数由逐层导数的无穷范数控制,而梯度和切线核由 2-范数控制,产生的范数差异推动线性化。
  • 切线核的恒定性并非普遍适用于宽网络,最后一层非线性或存在瓶颈时可能失效。
  • 即使不线性,梯度下降也能高效优化宽网络,表明 NTK 恒定性并非成功优化的严格前提。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。