[论文解读] The Break-Even Point on Optimization Trajectories of Deep Neural Networks
该论文研究在早期训练阶段的 SGD 超参数如何创造一个盈亏点,从而隐式正则化损失表面的曲率和梯度噪声,影响完整的优化轨迹并可能影响泛化。
The early phase of training of deep neural networks is critical for their final performance. In this work, we study how the hyperparameters of stochastic gradient descent (SGD) used in the early phase of training affect the rest of the optimization trajectory. We argue for the existence of the "break-even" point on this trajectory, beyond which the curvature of the loss surface and noise in the gradient are implicitly regularized by SGD. In particular, we demonstrate on multiple classification tasks that using a large learning rate in the initial phase of training reduces the variance of the gradient, and improves the conditioning of the covariance of gradients. These effects are beneficial from the optimization perspective and become visible after the break-even point. Complementing prior work, we also show that using a low learning rate results in bad conditioning of the loss surface even for a neural network with batch normalization layers. In short, our work shows that key properties of the loss surface are strongly influenced by SGD in the early phase of training. We argue that studying the impact of the identified effects on generalization is a promising future direction.
研究动机与目标
- 动机:研究早期训练阶段对于深度网络最终性能的重要性。
- 定义并在优化轨迹上识别一个盈亏点,在该点 SGD 使曲率和梯度噪声稳定下来。
- 假设初始学习率和批量大小如何在整个轨迹中控制梯度协方差和 Hessian 条件的相关性。
- 在多种架构和数据集上展示方差降低和预处理/预条件化效应的实证证据。
- 将分析扩展到含批量归一化的网络,以评估结论的鲁棒性。
提出的方法
- 将早期训练的损失表面建模为被最高 Hessian 方向支配,并假设最高 Hessian 与梯度协方差特征向量之间存在对齐。
- 将盈亏点定义为沿着最高 Hessian 方向违反稳定性条件的首次 SGD 步骤。
- 推测更大的初始学习率或更小的批量大小会降低沿着轨迹的梯度协方差和 Hessian 的最大谱范数。
- 在早期训练阶段计算并分析 Hessian 的谱范数以及非中心化梯度协方差,以检验上述猜想。
- 在多种架构和数据集上对猜想进行经验评估,包括 BN 和非 BN 网络,以及在诸如 BERT 在 MNLI 和 DenseNet 在 ImageNet 等大规模任务上的评估。
实验结果
研究问题
- RQ1SGD 早期阶段是否通过盈亏点决定随后的优化轨迹?
- RQ2初始 SGD 超参数(学习率、批量大小)如何影响沿轨迹的梯度协方差与 Hessian 条件的谱范数?
- RQ3在含批量归一化的网络和大规模模型中,所提出的效应是否仍然存在?
- RQ4更大的初始学习率是否会在盈亏点之后使损失表面的条件区域变得更好?
- RQ5盈亏点动态与潜在泛化改进之间的关系是什么?
主要发现
- 存在一个盈亏点,其中沿着损失最弯曲方向的 SGD 动力学变得不稳定,随后轨迹对齐到更好条件的区域。
- 更大的初始学习率或更小的批量大小会降低训练过程中的梯度协方差和 Hessian 的最大谱范数,表明方差降低和预conditioning效应。
- 更高的学习率和更小的批量大小使得 K 与 H 的最小非零特征值与最大特征值之比增大,暗示条件更好。
- 含批量归一化的网络仍然表现出盈亏行为,需要较高的学习率以实现相较于非 BN 网络的改进条件。
- 方差降低和预 conditioning 效应在 SimpleCNN、ResNet-32、LSTM、BERT、DenseNet,以及在如 MNLI 和 ImageNet 等大规模实验中观察到。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。