QUICK REVIEW

[论文解读] Mean-field Behaviour of Neural Tangent Kernel for Deep Neural Networks

Soufiane Hayou, Randal Douc|arXiv (Cornell University)|Sep 25, 2019

Stochastic Gradient Optimization Techniques参考文献 40被引用 23

一句话总结

本文研究了在宽深层神经网络中，初始化和激活函数对神经正切核（NTK）的影响。研究发现，标准NTK框架无法解释极深网络中的性能表现，揭示了在接近‘混沌边缘’的初始化下，NTK的动力学行为发生显著变化；实验验证了理论分析在宽网络中超出线性近似范围的动态行为。

ABSTRACT

Recent work by Jacot et al. (2018) has shown that training a neural network of any kind with gradient descent in parameter space is strongly related to kernel gradient descent in function space with respect to the Neural Tangent Kernel (NTK). Lee et al. (2019) built on this result by establishing that the output of a neural network trained using gradient descent can be approximated by a linear model for wide networks. In parallel, a recent line of studies (Schoenholz et al. 2017; Hayou et al. 2019) has suggested that a special initialization, known as the Edge of Chaos, improves training. In this paper, we bridge the gap between these two concepts by quantifying the impact of the initialization and the activation function on the NTK when the network depth becomes large. In particular, we show that the performance of wide deep neural networks cannot be explained by the NTK regime and we provide experiments illustrating our theoretical results.

研究动机与目标

理解初始化和激活函数如何影响宽深层神经网络中的神经正切核（NTK）。
研究NTK框架是否能充分解释极深网络的训练动力学。
弥合NTK框架与已知可提升训练效果的‘混沌边缘’初始化之间的差距。
提供理论与实证证据，表明标准NTK近似在深层架构中失效。

提出的方法

利用场论方法分析无限宽度与大深度极限下的NTK，以建模权重和激活分布。
推导不同初始化方案下NTK的渐近行为，特别关注混沌边缘初始化。
采用场论近似追踪训练过程中NTK的演化，考虑深度相关的缩放效应。
采用NTK的递归公式，以捕捉深度与激活函数非线性的影响。
通过在具有多种激活函数的宽深层前馈网络上进行实验，验证理论预测。
比较不同初始化方案下的泛化与训练性能，尤其关注混沌边缘附近的初始化。

实验结果

研究问题

RQ1初始化的选择如何影响极深、宽神经网络中的NTK？
RQ2随着网络深度增加，NTK框架的适用性在多大程度上仍然有效？
RQ3激活函数在深层架构中对NTK动力学起何作用？
RQ4在混沌边缘初始化是否会导致与标准初始化相比本质不同的NTK行为？
RQ5NTK框架能否准确预测深层网络中的泛化与训练动力学？

主要发现

即使宽度足够大，标准NTK框架在极深网络中仍会失效，原因在于NTK存在深度相关的缩放。
在混沌边缘初始化下，NTK的行为与标准初始化相比有显著不同，尤其在深层架构中更为明显。
在深层网络中，NTK变得非平稳且依赖于深度，这使得训练过程中核保持恒定的假设不再成立。
理论分析表明，仅在特定初始化条件下，NTK才会收敛到非平凡极限，而非在所有深度下都成立。
实验结果证实，于混沌边缘初始化的网络泛化性能更优，并表现出独特的NTK动力学，即使在宽极限下亦然。
宽深层网络的性能无法用线性化NTK模型解释，表明深层学习中需要非线性核动力学。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。