[论文解读] Towards Understanding the Spectral Bias of Deep Learning
本文通过神经切线核(NTK)分析谱偏差,证明梯度下降沿NTK特征函数收敛,速率与其特征值相关,并给出对均匀球面数据的案例研究,表明低阶球面谐函数的学习速度更快,并有实验支持。
An intriguing phenomenon observed during training neural networks is the spectral bias, which states that neural networks are biased towards learning less complex functions. The priority of learning functions with low complexity might be at the core of explaining generalization ability of neural network, and certain efforts have been made to provide theoretical explanation for spectral bias. However, there is still no satisfying theoretical result justifying the underlying mechanism of spectral bias. In this paper, we give a comprehensive and rigorous explanation for spectral bias and relate it with the neural tangent kernel function proposed in recent work. We prove that the training process of neural networks can be decomposed along different directions defined by the eigenfunctions of the neural tangent kernel, where each direction has its own convergence rate and the rate is determined by the corresponding eigenvalue. We then provide a case study when the input data is uniformly distributed over the unit sphere, and show that lower degree spherical harmonics are easier to be learned by over-parameterized neural networks. Finally, we provide numerical experiments to demonstrate the correctness of our theory. Our experimental results also show that our theory can tolerate certain model misspecification in terms of the input data distribution.
研究动机与目标
- 激发并形式化过参数化神经网络中的谱偏差。
- 将谱偏差与神经切线核及其特征结构联系起来。
- 提供沿NTK特征方向的一般收敛性结果。
- 刻画均匀球面数据下的NTK谱并将其与低阶谐函数的学习联系起来。
- 通过跨情景的数值实验验证理论发现。
提出的方法
- 在神经切线核(NTK)势/区间下建模神经网络,并推导沿NTK特征函数的梯度下降动力学。
- 为两层ReLU网络定义NTK,并将其表示为0阶和1阶arc-cosine核之和。
- 引入积分算子L_kappa及其特征函数/特征值来描述收敛方向。
- 在特定样本量和宽度条件下,证明沿NTK特征方向的收敛性依赖于相应的特征值的一般定理。
- 在均匀球面数据下对NTK进行谱分析,得到显式的特征值/特征函数(球面谐函数)及其衰减率。
- 给出推论,给出均匀球面数据的明确收敛速率,将学习速度与特征值联系起来。
实验结果
研究问题
- RQ1对过参数化网络,梯度下降在NTK特征方向上如何表现?
- RQ2NTK特征值如何控制学习目标函数的不同频率分量的收敛速率?
- RQ3当输入在单位球面上均匀分布时,NTK的谱是什么?它如何与球面谐函数相关?
- RQ4在现实的宽度和样本量条件下,低阶分量能否比高阶分量学习得更快?
主要发现
- 训练误差在NTK特征子空间上的投影收敛速率由相应特征值决定。
- 较低频分量(较大的NTK特征值)学习更快,且使用较窄的网络时需要更少的样本。
- 当数据在球面均匀分布时,NTK特征函数与球面谐函数对齐,特征值衰减为 mu_k = Omega(k^{-d-1}) 当 k >> d 或 Omega(d^{-k+1}) 当 d >> k。
- 该理论对任意目标函数成立,不要求目标函数落在NTK诱导的RKHS中。
- 对学习球面谐函数的组合和简单函数的实验验证了投影残差的收敛速率。
- 结果对数据分布中的某些模型错误指定具有容忍性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。