Skip to main content
QUICK REVIEW

[论文解读] On the Inductive Bias of Neural Tangent Kernels

Alberto Bietti, Julien Mairal|arXiv (Cornell University)|May 28, 2019
Neural Networks and Applications参考文献 45被引用 31
一句话总结

本文分析了过参数化神经网络中神经正切核(NTK)的归纳偏置,特别针对基于ReLU的卷积架构。研究发现,尽管NTK映射不满足Lipschitz连续性,但其满足一种较弱的Hölder光滑性,从而实现对输入形变的稳定性;此外,由于特征值衰减有利,NTK的再生核希尔伯特空间(RKHS)表现出更优的逼近性质,优于标准ReLU函数类。

ABSTRACT

State-of-the-art neural networks are heavily over-parameterized, making the optimization algorithm a crucial ingredient for learning predictive models with good generalization properties. A recent line of work has shown that in a certain over-parameterized regime, the learning dynamics of gradient descent are governed by a certain kernel obtained at initialization, called the neural tangent kernel. We study the inductive bias of learning in such a regime by analyzing this kernel and the corresponding function space (RKHS). In particular, we study smoothness, approximation, and stability properties of functions with finite norm, including stability to image deformations in the case of convolutional networks, and compare to other known kernels for similar architectures.

研究动机与目标

  • 通过神经正切核(NTK)理解梯度下降在过参数化神经网络中的归纳偏置。
  • 刻画基于ReLU的两层网络和卷积网络中,NTK诱导函数空间(RKHS)的光滑性与稳定性特性。
  • 比较NTK的RKHS与其他由ReLU网络导出的函数类(包括仅训练最后一层或高斯过程极限下的函数类)的逼近能力。
  • 为具有任意补丁和池化操作的卷积网络推导分层树状结构的核特征映射。

提出的方法

  • 通过递归核组合方法,推导出具有通用线性补丁提取和池化操作的卷积网络的NTK。
  • 基于逐层点积核与激活函数,通过分层树状结构的特征映射表达核映射。
  • 通过Hölder连续性分析光滑性,表明其虽非Lipschitz连续,但满足较弱的Hölder条件。
  • 利用球谐函数分解刻画两层ReLU NTK的RKHS,并研究特征值衰减速率。
  • 在C++中使用动态规划计算图像输入的完整NTK,以实现RKHS距离的数值评估。
  • 在MNIST数据集上进行数值实验,通过受控形变(平移、小角度旋转和光滑形变)评估RKHS范数下的稳定性。

实验结果

研究问题

  • RQ1ReLU卷积神经网络的NTK映射是否满足Lipschitz连续性?这是核方法中形变稳定性的已知条件。
  • RQ2NTK核映射的光滑性类别(如Hölder、Lipschitz)是什么?其对输入形变的稳定性有何影响?
  • RQ3NTK的RKHS逼近性能与ReLU网络相关联的其他函数类(如仅训练最后一层或ReLU网络的高斯过程极限)相比如何?
  • RQ4在两层ReLU情况下,NTK核的谱衰减行为如何?其与函数正则性及逼近速率的关系是什么?
  • RQ5NTK的分层结构能否通过每层的核特征映射递归表达?

主要发现

  • ReLU网络的NTK映射不满足Lipschitz连续性,但满足指数小于1的Hölder光滑性条件。
  • 尽管缺乏Lipschitz连续性,NTK映射对输入形变仍保持稳定,其稳定性具有来自Hölder性质的定量保证。
  • 两层ReLU NTK的RKHS特征值衰减速度快于标准ReLU函数类,表明其对Lipschitz函数具有更优的逼近性能。
  • NTK的逼近性能优于仅训练最后一层或ReLU网络高斯过程极限所导出的函数类。
  • 数值实验表明,NTK的RKHS范数在形变下增长速度慢于其他核,支持理论稳定性结论。
  • NTK的分层结构支持通过递归的、树状组织的核特征映射,有效捕捉卷积架构中的多尺度表征。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。