QUICK REVIEW

[论文解读] Gradient Dynamics of Shallow Univariate ReLU Networks

Francis Williams, Matthew Trager|arXiv (Cornell University)|Jun 18, 2019

Stochastic Gradient Optimization Techniques参考文献 34被引用 36

一句话总结

本文分析了具有一维输入的过参数化浅层 ReLU 网络的梯度动力学，揭示了在核学习和自适应学习两种机制下，产生三次样条与线性样条插值的情形。

ABSTRACT

We present a theoretical and empirical study of the gradient dynamics of overparameterized shallow ReLU networks with one-dimensional input, solving least-squares interpolation. We show that the gradient dynamics of such networks are determined by the gradient flow in a non-redundant parameterization of the network function. We examine the principal qualitative features of this gradient flow. In particular, we determine conditions for two learning regimes:kernel and adaptive, which depend both on the relative magnitude of initialization of weights in different layers and the asymptotic behavior of initialization coefficients in the limit of large network widths. We show that learning in the kernel regime yields smooth interpolants, minimizing curvature, and reduces to cubic splines for uniform initializations. Learning in the adaptive regime favors instead linear splines, where knots cluster adaptively at the sample points.

研究动机与目标

理解梯度下降如何在一维过参数化 ReLU 网络中演化参数
识别初始化和层缩放如何决定学习模式
表征简化（规范化）参数动力学及其与全参数动力学的关系
展示核动力学如何对应三次样条，自适应动力学对应线性样条
探讨宽度 m 与归一化在塑造训练轨迹和泛化中的作用

提出的方法

采用网络函数的规范参数化，以研究宽度 m 增大时的极限行为
使用平均场理论将网络输出表示为对参数空间上测度的积分，并推导出一个 Wasserstein 梯度流
推导出参数测度在梯度流作用下的偏微分方程（连续性方程）
分析残差动力学，以描述神经元何时在样本点聚集、何时遵循核式运动
通过依赖于初始化不变量的度量变换，将全参数梯度动力学与简化的规范动力学联系起来
在无穷宽极限下表征核动力学，并将解与 RKHS 范数和三次样条联系起来
检验不同初始化（通过 delta 不变量）如何在核式与自适应式机制之间插值
讨论缩放参数 alpha(m) 对懒惰学习与主动学习两种机制的影响
比较均匀初始化和高斯初始化及其对结果切线核的影响

实验结果

研究问题

RQ1初始化和缩放的哪些条件区分核式与自适应学习模式？
RQ2在不同参数化下，简化的规范动力学如何与全参数动力学相关？
RQ3在一维浅层 ReLU 网络的核式与自适应式机制中，产生哪些函数形式（三次样条与线性样条）？
RQ4宽度 m 和归一化 alpha(m) 如何影响梯度流和泛化行为？
RQ5残差动力学对神经元在样本点的聚集有何影响？

主要发现

在核动力学中，学习产生的平滑插值最小化曲率，在适当初始化下对应三次样条
在自适应动力学中，神经元聚集在样本点并产生分段线性（线性样条）插值
规范参数动力学只取决于残差演化，而全参数动力学因初始化不变量决定的度量而不同
在某些初始化下的无穷宽极限中，核解最小化与函数二阶导数相关的类似 RKHS 的范数
NTK 与随机特征核显示出不同的正则性：RKHS 范数引入曲率的 L2 型控制，而非 L1 型总变差惩罚
改变尺度参数 alpha(m) 使模型在懒惰（核式）与主动（自适应）学习机制之间移动
均匀初始化与高斯初始化产生不同的显式切线核，均匀初始化导致三次样条行为，高斯初始化导致不同的核形式

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。