Skip to main content
QUICK REVIEW

[论文解读] Spectrum Dependent Learning Curves in Kernel Regression and Wide Neural Networks

Blake Bordelon, Abdülkadir Canatar|arXiv (Cornell University)|Feb 6, 2020
Neural Networks and Applications被引用 54
一句话总结

作者推导出核回归的解析、与光谱相关的一般化曲线,并通过神经张量核(NTK)证明与训练宽神经网络等价;更高的光谱模态在更多数据下被学习,揭示学习阶段和频率偏好。

ABSTRACT

We derive analytical expressions for the generalization performance of kernel regression as a function of the number of training samples using theoretical methods from Gaussian processes and statistical physics. Our expressions apply to wide neural networks due to an equivalence between training them and kernel regression with the Neural Tangent Kernel (NTK). By computing the decomposition of the total generalization error due to different spectral components of the kernel, we identify a new spectral principle: as the size of the training set grows, kernel machines and neural networks fit successively higher spectral modes of the target function. When data are sampled from a uniform distribution on a high-dimensional hypersphere, dot product kernels, including NTK, exhibit learning stages where different frequency modes of the target function are learned. We verify our theory with simulations on synthetic data and MNIST dataset.

研究动机与目标

  • 为目标函数的光谱组成部分推导核回归一般化误差的解析表达式。
  • 通过与NTK等价性将核回归一般化与宽神经网络联系起来。
  • 展示随着训练数据增长,不同光谱模态的学习速率不同。
  • 在点积核和高维数据下表征学习阶段与光谱偏差。
  • 通过合成数据和MNIST的仿真提供验证。

提出的方法

  • 使用高斯过程文献中的学习曲线连续近似来推导模态级的一般化误差。
  • 在核的Mercer特征基上表示函数,并将一般化误差分解为每个光谱模态的E_rho。
  • 推导编码学习动力学的平均G(p,v)矩阵的偏微分方程,并求解(也可通过复刻法与鞍点近似)。
  • 对单位球面上的点积核进行特殊化,其中特征函数为球谐函数且特征值为lambda_k。
  • 获得模态误差E_rho(p)和总误差E_g(p)的隐式方程,并提供计算学习曲线的算法。

实验结果

研究问题

  • RQ1核的光谱结构如何影响不同函数模态的学习速率?
  • RQ2核回归的学习曲线是否能对通用核和数据分布解析表达,并如何通过NTK转化为神经网络?
  • RQ3当数据维度增加时,会出现哪些学习阶段,它们由RKHS光谱所支配?
  • RQ4对真实数据集(如MNIST)和采用梯度下降训练的宽神经网络,分析预测是否成立?

主要发现

  • 不同的光谱模态以不同速率被学习;更高的核特征值带来更快的单位样本改进。
  • 在单位球面上的点积核数据(包括NTK)下,随着数据集增长,低频模态学习更快,形成清晰的学习阶段。
  • 在高维极限下,学习阶段按频率k与训练数据量p的关系将模态分离,k<l被学习,k=l被学习,k>l在p≈O(d^l)时不被学习。
  • 在PDE/复刻近似下模态误差E_rho(p)按p^{-2}衰减,总体泛化误差的幂律尺度取决于核和目标光谱。
  • 理论与对合成数据和MNIST的仿真相符,并扩展到多输出以及无岭回归/插值情形(λ→0)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。