[论文解读] Dynamics of Deep Neural Networks and Neural Tangent Hierarchy
本论文提出 neural tangent hierarchy (NTH) 用于描述深度网络的有限宽度梯度下降动态,证明 NTK 的变化量级为 1/m,并提出一个截断方法,用可调精度近似 NTK 动力学。
The evolution of a deep neural network trained by the gradient descent can be described by its neural tangent kernel (NTK) as introduced in [20], where it was proven that in the infinite width limit the NTK converges to an explicit limiting kernel and it stays constant during training. The NTK was also implicit in some other recent papers [6,13,14]. In the overparametrization regime, a fully-trained deep neural network is indeed equivalent to the kernel regression predictor using the limiting NTK. And the gradient descent achieves zero training loss for a deep overparameterized neural network. However, it was observed in [5] that there is a performance gap between the kernel regression using the limiting NTK and the deep neural networks. This performance gap is likely to originate from the change of the NTK along training due to the finite width effect. The change of the NTK along the training is central to describe the generalization features of deep neural networks. In the current paper, we study the dynamic of the NTK for finite width deep fully-connected neural networks. We derive an infinite hierarchy of ordinary differential equations, the neural tangent hierarchy (NTH) which captures the gradient descent dynamic of the deep neural network. Moreover, under certain conditions on the neural network width and the data set dimension, we prove that the truncated hierarchy of NTH approximates the dynamic of the NTK up to arbitrary precision. This description makes it possible to directly study the change of the NTK for deep neural networks, and sheds light on the observation that deep neural networks outperform kernel regressions using the corresponding limiting NTK.
研究动机与目标
- 在梯度流下激励并分析深度、全连接网络的训练动态。
- 推导一个无限层级(NTH),捕捉数据相关、对宽度敏感的 NTK 动力学。
- 给出高阶核的先验界,并证明 NTK 的变化为 O(1/m)。
- 提出一个截断的 NTH,在足够大宽度下可达到任意精度近似 NTK 动力学。
提出的方法
- 在具有 H 个隐藏层、每层权重为 W^(l) 的深度全连接网络上形式化连续时间梯度下降(梯度流)。
- 将神经切线核 K_t^(2)(·,·) 定义为逐层核 G_t^(l) 的和,并展示其与数据的依赖关系。
- 推导 neural tangent hierarchy:一组关于 f(t) 与高阶核 K_t^(r)(r≥2)的无限常微分方程系统。
- 建立高阶核 K_t^(r) 的先验界,并证明 K_t^(2) 的变化为 O(1/m)。
- 通过设定 ∂_t K_t^(p)=0 引入截断的 NTH,并分析其近似误差。
- 给出收敛结果及在假设条件下梯度下降达到零训练损失的条件(线性/指数收敛速率)。
实验结果
研究问题
- RQ1有限宽度深度网络的梯度流动态是否存在描述其演化的精确无限层级(NTH)?
- RQ2更高阶的类 NTK 的核 K_t^(r) 如何表现,是否可以事先给出界限?
- RQ3有限宽度网络在训练过程中的 NTK 变化是否为 O(1/m),以及这对泛化与训练动态有何含义?
- RQ4在实际宽度下,有限层截断的 NTH 能否准确近似 NTK 动力学,宽度如何影响近似误差?
- RQ5在什么条件下,较宽的网络的梯度下降收敛到零训练损失,且能否在先前结果的基础上得到改进?
主要发现
- 深度网络的梯度下降动态可以用无限的 neural tangent hierarchy (NTH) 来描述。
- 存在具有先验估计的确定性高阶核;在给定假设下,NTK 的变化为 O(1/m)。
- 截断的 NTH 提供对 NTK 动力学的可控误差近似,随着宽度增大而改进。
- 对于 m ≳ n^3,截断的层级在到达指定界限的时间内与 NTK 动力学紧密跟踪,误差项随着 m 增大而减小。
- 在 K_0^(2) 的正最小特征值条件下,梯度流在足够宽的网络上实现训练误差的指数(线性速率)衰减。
- 更宽的网络(更大的 m)使有效近似时间更长,截断误差更小,暗示宽度-深度对 NTK 演化和学习性能有好处。
- 推论表明,在相关结果的收敛保证中,相较于之前的四次方界,宽度需求在三次方层面提升(m ≳ n^3)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。