QUICK REVIEW

[论文解读] On the training dynamics of deep networks with $L_2$ regularization

Aitor Lewkowycz, Guy Gur-Ari|arXiv (Cornell University)|Jun 15, 2020

Stochastic Gradient Optimization Techniques参考文献 23被引用 25

一句话总结

该论文揭示，在过参数化的深度网络中，达到峰值性能所需的时间与 $L_2$ 正则化系数 $λ$ 成反比，当训练时间按 $λ^{-1}$ 缩放时，峰值性能将不再依赖于 $λ$。基于此，作者提出了 Auto $L_2$，一种动态 $L_2$ 调度方法，可提升训练速度与准确率，并提出一种仅需极少计算量即可预测最优 $λ$ 的方法，该方法在 CIFAR-10 和 ImageNet 上得到验证。

ABSTRACT

We study the role of $L_2$ regularization in deep learning, and uncover simple relations between the performance of the model, the $L_2$ coefficient, the learning rate, and the number of training steps. These empirical relations hold when the network is overparameterized. They can be used to predict the optimal regularization parameter of a given model. In addition, based on these observations we propose a dynamical schedule for the regularization parameter that improves performance and speeds up training. We test these proposals in modern image classification settings. Finally, we show that these empirical relations can be understood theoretically in the context of infinitely wide networks. We derive the gradient flow dynamics of such networks, and compare the role of $L_2$ regularization in this context with that of linear models.

研究动机与目标

理解在过参数化深度网络中 $L_2$ 正则化的作用，此时经典偏差-方差直觉不再适用。
识别 $L_2$ 正则化、学习率、训练步数与模型性能之间经验性缩放规律。
开发实用工具——$λ$ 预测与动态调度，以提升训练效率与测试准确率。
通过无限宽网络分析与梯度流方程，理论解释所观察到的动力学行为。

提出的方法

通过实验观察到，峰值性能出现在 $t_* \approx c / \lambda$，其中 $c$ 取决于数据、架构与超参数。
提出一种方法，通过从单次短时训练运行中估计系数 $c$，来预测最优 $λ$。
提出 Auto $L_2$，一种动态调度策略，初始使用高 $λ$ 以实现快速早期收敛，并在训练过程中逐渐衰减。
推导无限宽网络在 $L_2$ 正则化下的梯度流动力学，表明 $λ$ 导致核函数衰减。
求解相应的微分方程以获得均方误差损失，验证了峰值训练时间与 $λ^{-1}$ 的缩放关系。
理论分析表明，$L_2$ 正则化在深度网络中会诱导核函数衰减，与线性模型不同，从而导致训练动力学的显著差异。

实验结果

研究问题

RQ1在过参数化的深度网络中，$L_2$ 正则化如何影响峰值测试准确率的时机与幅度？
RQ2能否仅通过一次短时训练运行预测最优 $L_2$ 正则化系数？
RQ3在训练过程中动态衰减的 $L_2$ 调度策略是否相比恒定 $λ$ 能够同时提升速度与性能？
RQ4与线性模型相比，$L_2$ 正则化如何改变无限宽网络的训练动力学？
RQ5深度网络中观察到的峰值性能时间 $λ^{-1}$ 缩放关系的理论基础是什么？

主要发现

达到峰值性能所需的训练步数与 $t_* \approx c / \lambda$ 成比例，当使用普通 SGD 时，$c$ 与学习率 $η$ 无关。
当训练时间按 $λ^{-1}$ 缩放时，模型性能趋于平稳，且在小 $λ$ 下不再依赖于 $λ$，性能通常优于 $λ = 0$ 的情况。
所提出的 $L_2$ 预测方法仅通过一次短时训练运行，即可实现与调优 $λ$ 值相差不超过 0.4% 的测试准确率。
Auto $L_2$——一种动态衰减的 $L_2$ 调度策略——在测试准确率与训练速度方面均优于使用调优后恒定 $λ$ 训练的模型。
对无限宽网络的理论分析表明，$L_2$ 正则化会导致神经正切核呈指数衰减，从而导致峰值性能时间与 $λ^{-1}$ 成比例。
与线性模型不同，深度网络在 $L_2$ 正则化下会表现出训练过程中的核函数衰减，这解释了其训练动力学对 $λ$ 的独特依赖性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。