QUICK REVIEW

[论文解读] The Early Phase of Neural Network Training

Jonathan Frankle, David J. Schwab|arXiv (Cornell University)|Feb 24, 2020

Stochastic Gradient Optimization Techniques参考文献 20被引用 50

一句话总结

本文使用 iterative magnitude pruning with rewinding (IMP) 来分析深度网络训练的极早期阶段，以量化权重变化、鲁棒性和数据依赖性，并显示早期变化不仅仅由标签驱动，在更深的网络中符号本身也不足以解释。此外，它还证明，使用自监督任务或模糊输入进行的预训练可以近似早期阶段的变化，暗示这些变化本质上并非标签所必需。

ABSTRACT

Recent studies have shown that many important aspects of neural network learning take place within the very earliest iterations or epochs of training. For example, sparse, trainable sub-networks emerge (Frankle et al., 2019), gradient descent moves into a small subspace (Gur-Ari et al., 2018), and the network undergoes a critical period (Achille et al., 2019). Here, we examine the changes that deep neural networks undergo during this early phase of training. We perform extensive measurements of the network state during these early iterations of training and leverage the framework of Frankle et al. (2019) to quantitatively probe the weight distribution and its reliance on various aspects of the dataset. We find that, within this framework, deep networks are not robust to reinitializing with random weights while maintaining signs, and that weight distributions are highly non-independent even after only a few hundred iterations. Despite this behavior, pre-training with blurred inputs or an auxiliary self-supervised task can approximate the changes in supervised networks, suggesting that these changes are not inherently label-dependent, though labels significantly accelerate this process. Together, these results help to elucidate the network changes occurring during this pivotal initial period of learning.

研究动机与目标

在 CIFAR-10 上、跨多种体系结构的前 4,000 次训练迭代中表征神经网络的状态。
量化对早期训练权重的扰动如何影响最终性能，包括符号/幅值变化和置换不变性。
通过将自监督预训练和模糊输入作为标签驱动学习的替代来测试早期训练的数据依赖性。
通过考察后期 rewinding 的必要性以及早期权重分布的非独立性，探讨对彩票假说的影响。

提出的方法

使用 IMP（迭代幅值裁剪）提取在不同早期训练点的稀疏子网络。
训练网络至收敛，按幅值裁剪 20% 的权重，并将其余权重回卷到早期迭代 k 的值。
通过添加噪声、置换权重或在分量内重新排序等方式系统性地扰动早期状态网络以探测鲁棒性。
在高稀疏度下测量扰动子网络的性能，以评估权重符号和分布的重要性。
将扰动与简单的噪声模型相比以判断效应是由噪声驱动还是由结构驱动。
通过随机标签、自监督旋转或模糊输入进行预训练，然后再进行标准训练来评估数据依赖性。

实验结果

研究问题

RQ1在常见卷积神经网络架构中，网络权重和梯度在极早期训练阶段如何演化？
RQ2早期阶段的权重变化和分布对符号/幅值交换或权重置换等扰动是否鲁棒？
RQ3早期阶段学习是否可以通过非标签信息（自监督预训练、模糊输入）来近似，这对 IMP rewinding 有何影响？
RQ4数据分布 p(x) 与标签 p(y|x) 在塑造早期训练动态和稀疏子网络成功方面的作用是什么？

主要发现

早期训练显示出三个子阶段：初始阶段的梯度较大；在大约 200 次迭代时梯度幅值达到一个最小值；随后向 500 次迭代逐渐稳定。
更深的网络在保持符号的前提下对随机权重重新初始化并不鲁棒，早期权重分布即使在几百次迭代后也高度非独立同分布。
将来自一个时点的符号与来自另一个时点的幅值结合等扰动会降低性能，表明在早期训练中幅值比符号更具影响力；来自后期回 rewinding 的符号也会在置换后影响恢复。
在全局结构或层内置换权重会显著损害性能，表明权重并非独立分布且对结构化组织敏感。
高斯加性噪声表明中等噪声可以容忍，但超过一定强度的扰动会降低准确性，说明效应不仅仅是噪声造成的。
自监督预训练（旋转任务）可以在 IMP rewinding 下近似早期阶段的变化，但需要大约 32× 的训练周期，表明标签加速学习但并非严格必要。
用模糊输入进行预训练也能在一定程度上近似早期阶段的变化，将模糊输入与旋转结合在某些架构上会过度降低所需信息量，尽管效应因网络而异（如 VGG-13）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。