[论文解读] A Closer Look at Deep Learning Heuristics: Learning rate restarts, Warmup and Distillation
本文通过实证分析余弦学习率重启、学习率预热以及知识蒸馏,利用模式连通性和 SVCCA 来理解深度网络的训练动态与表征。
The convergence rate and final performance of common deep learning models have significantly benefited from heuristics such as learning rate schedules, knowledge distillation, skip connections, and normalization layers. In the absence of theoretical underpinnings, controlled experiments aimed at explaining these strategies can aid our understanding of deep learning landscapes and the training dynamics. Existing approaches for empirical analysis rely on tools of linear interpolation and visualizations with dimensionality reduction, each with their limitations. Instead, we revisit such analysis of heuristics through the lens of recently proposed methods for loss surface and representation analysis, viz., mode connectivity and canonical correlation analysis (CCA), and hypothesize reasons for the success of the heuristics. In particular, we explore knowledge distillation and learning rate heuristics of (cosine) restarts and warmup using mode connectivity and CCA. Our empirical analysis suggests that: (a) the reasons often quoted for the success of cosine annealing are not evidenced in practice; (b) that the effect of learning rate warmup is to prevent the deeper layers from creating training instability; and (c) that the latent knowledge shared by the teacher is primarily disbursed to the deeper layers.
研究动机与目标
- 激发对广泛使用的深度学习启发式背后机理的理解,超越单纯的经验成功。
- 利用现代分析工具调查余弦退火/ SGDR、学习率预热以及知识蒸馏。
- 评估这些启发式对损失表面和跨网络层的表征的影响。
- 提供洞见,指出这些启发式在训练过程中在哪些阶段以及如何产生影响。
提出的方法
- 将模式连通性应用于连接在不同训练方案下找到的最优解,并分析得到的曲线与障碍。
- 使用 SVCCA(为提高效率对其进行 SVD/DFT 预处理)来衡量跨网络和训练迭代的表示相似性。
- 通过学习率调度对 SGDR 进行特征化,并与标准的带/不带重启的 SGD 进行比较。
- 使用 CCA 研究在预热和蒸馏情景下的分层激活演变。
- 在 CIFAR-10 上对 VGG-16/ResNet 变体进行受控实验,以观察各层的动态。
实验结果
研究问题
- RQ1余弦退火/ SGDR 的重启是否会在损失平面中创造或穿越障碍,且这对它们的成功是否至关重要?
- RQ2学习率预热如何影响稳定性,哪些网络层受影响最大?
- RQ3蒸馏中传递的知识在学生网络的表示中表现在哪些方面?
- RQ4模式连通性和 SVCCA 对在这些启发式下的训练动态揭示了什么?
主要发现
- 余弦退火的收益并未始终被证实为逃离障碍;迭代在重启后跨越障碍,但这可能不足以完全解释其收益。
- 学习率预热主要限制深层层的权重变化,冻结这些层可以达到类似的稳定性。
- 蒸馏中教师传递的潜在知识主要分布到学生网络的较深(判别性)层。
- 表征相似性分析显示,训练后浅层激活更相似,较深的层承载了差异化的表征。
- 模式连通性揭示不同最优解之间存在稳健的高精度连接曲线,暗示在训练选择之间的损失平面是可连接的。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。