Skip to main content
QUICK REVIEW

[论文解读] Disentangling feature and lazy learning in deep neural networks: an empirical study.

Mario Geiger, Stefano Spigler|arXiv (Cornell University)|Jan 1, 2019
Gaussian Processes and Bayesian Inference参考文献 14被引用 11
一句话总结

该论文通过将最后一层权重缩放为 $\alpha / \sqrt{h}$,实证研究了深度神经网络中懒惰学习与特征学习模式之间的转变。结果表明,在全连接和卷积设置下,特征学习均优于懒惰学习,且随着宽度 $h$ 增大,性能差异逐渐减小;同时,初始条件波动的尺度为 $1/\sqrt{h}$,表明可通过增加宽度或模型集成实现性能提升。

ABSTRACT

Two distinct limits for deep learning as the net width $h o\infty$ have been proposed, depending on how the weights of the last layer scale with $h$. In the lazy-learning regime, the dynamics becomes linear in the weights and is described by a Neural Tangent Kernel $\Theta$. By contrast, in the feature-learning regime, the dynamics can be expressed in terms of the density distribution of the weights. Understanding which regime describes accurately practical architectures and which one leads to better performance remains a challenge. We answer these questions and produce new characterizations of these regimes for the MNIST data set, by considering deep nets $f$ whose last layer of weights scales as $\frac{\alpha}{\sqrt{h}}$ at initialization, where $\alpha$ is a parameter we vary. We performed systematic experiments on two setups (A) fully-connected Softplus momentum full batch and (B) convolutional ReLU momentum stochastic. We find that (1) $\alpha^*=\frac{1}{\sqrt{h}}$ separates the two regimes. (2) for (A) and (B) feature learning outperforms lazy learning, a difference in performance that decreases with $h$ and becomes hardly detectable asymptotically for (A) but is very significant for (B). (3) In both regimes, the fluctuations $\delta f$ induced by initial conditions on the learned function follow $\delta f\sim1/\sqrt{h}$, leading to a performance that increases with $h$. This improvement can be instead obtained at intermediate $h$ values by ensemble averaging different networks. (4) In the feature regime there exists a time scale $t_1\sim\alpha\sqrt{h}$, such that for $t\ll t_1$ the dynamics is linear. At $t\sim t_1$, the output has grown by a magnitude $\sqrt{h}$ and the changes of the tangent kernel $\|\Delta\Theta\|$ become significant. Ultimately, it follows $\|\Delta\Theta\|\sim(\sqrt{h}\alpha)^{-a}$ for ReLU and Softplus activation, with $a<2$ & $a o2$ when depth grows.

研究动机与目标

  • 识别分离懒惰学习与特征学习模式的临界缩放 $\alpha^*$,适用于深度网络。
  • 在 MNIST 数据集上,比较不同架构(全连接与卷积)下懒惰学习与特征学习的泛化性能。
  • 分析初始条件波动如何影响学习函数,并研究宽度 $h$ 对模型性能的影响。
  • 表征正切核 $\Theta$ 随时间的演化及其变化量 $\|\Delta\Theta\|$ 在特征学习模式下的行为。

提出的方法

  • 在两种设置下进行系统性实验:(A) 全连接 Softplus 网络,使用动量和全批量训练;(B) 卷积 ReLU 网络,使用动量和随机训练。
  • 通过调节最后一层初始权重的缩放系数 $\alpha / \sqrt{h}$,探测懒惰学习与特征学习模式之间的转变。
  • 分析网络输出的动力学行为以及训练过程中神经正切核 $\Theta$ 的演化。
  • 通过 $\delta f$ 测量学习函数对初始条件的敏感性,并将其与宽度 $h$ 关联。
  • 推导出网络从线性动力学过渡到非线性动力学的时间尺度 $t_1 \sim \alpha\sqrt{h}$。
  • 量化 $\|\Delta\Theta\|$ 的渐近行为,其随时间演化满足 $\sim (\sqrt{h}\alpha)^{-a}$,适用于 ReLU 和 Softplus 激活函数,其中 $a < 2$,且随着深度增加,$a \to 2$。

实验结果

研究问题

  • RQ1在宽度 $h$ 增大的情况下,深度网络中分离懒惰学习与特征学习模式的 $\alpha$ 值是多少?
  • RQ2在不同网络架构和训练设置下,特征学习是否始终优于懒惰学习?
  • RQ3由于初始条件波动导致的学习函数波动,其与网络宽度 $h$ 的关系如何?
  • RQ4在特征学习模式下,非线性动力学开始出现的时间尺度 $t_1$ 是什么?它如何依赖于 $\alpha$ 和 $h$?
  • RQ5正切核的变化量 $\|\Delta\Theta\|$ 如何随时间演化?其渐近缩放行为如何?

主要发现

  • 临界缩放 $\alpha^* = 1/\sqrt{h}$ 分离了懒惰学习与特征学习模式,标志着线性与非线性动力学之间的转变点。
  • 在两种设置(A)和(B)中,特征学习均优于懒惰学习,且随着宽度 $h$ 增大,性能差距渐近减小;在卷积设置(B)中,差距仍保持显著。
  • 在两种模式下,初始条件波动 $\delta f$ 均与 $1/\sqrt{h}$ 成比例,表明性能随宽度增加而提升,且该提升效果可在中等宽度下通过模型集成实现。
  • 时间尺度 $t_1 \sim \alpha\sqrt{h}$ 标志着非线性动力学的出现,此后输出增长约 $\sqrt{h}$ 倍,且 $\|\Delta\Theta\|$ 变得显著。
  • 正切核变化量 $\|\Delta\Theta\|$ 的幅度渐近缩放为 $\sim (\sqrt{h}\alpha)^{-a}$,适用于 ReLU 和 Softplus 激活函数,其中 $a < 2$,且随着深度增加,$a \to 2$。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。