[论文解读] L2 Regularization versus Batch and Weight Normalization
该论文表明,与归一化(Batch、Weight 或 Layer Normalization)一起使用时,L2 正则化没有正则化效果;相反,它改变权重尺度和有效学习率,理论与 CIFAR-10 实验都进行了探索。
Batch Normalization is a commonly used trick to improve the training of deep neural networks. These neural networks use L2 regularization, also called weight decay, ostensibly to prevent overfitting. However, we show that L2 regularization has no regularizing effect when combined with normalization. Instead, regularization has an influence on the scale of weights, and thereby on the effective learning rate. We investigate this dependence, both in theory, and experimentally. We show that popular optimization methods such as ADAM only partially eliminate the influence of normalization on the learning rate. This leads to a discussion on other ways to mitigate this issue.
研究动机与目标
- 研究在使用归一化时,L2 正则化是否提供真正的正则化。
- 分析在归一化条件下,权重尺度如何影响梯度更新和学习率。
- 理论推导权重尺度如何与常见优化器相互作用。
- 在 CIFAR-10 上实验性验证正则化、权重尺度与学习率之间的关系。
提出的方法
- 在归一化条件下分析目标函数 Lλ(w) = L(w) + λ||w||^2,其中 y(Xi; αw, γ, β) = y(Xi; w, γ, β).
- 证明 Lλ(αw) = Lλα^2(w),这意味着正则化项按比例缩放权重但不改变函数。
- 推导梯度 ∇yBN 与 ∇yWN 如何随权重缩放而缩放,以及这如何导致对于多种优化器的有效学习率 ηeff = η/||w||^2。
- 给出在 SGD、动量、RMSProp、ADAM 以及牛顿/海森基方法下 ηeff 的理论表达。
- 在 CIFAR-10 上使用四层卷积神经网络和 Batch Normalization 进行实验验证,以说明 λ、η 与权重范数之间的相互作用。
实验结果
研究问题
- RQ1当使用 Batch/Weight/Layer Normalization 时,L2 正则化是否对函数进行正则化?
- RQ2权重尺度如何影响在归一化条件下常见优化器的有效学习率?
- RQ3对权重进行归一化或选择特定优化器能否缓解 λ 与学习率之间的相互作用?
- RQ4在 Batch Normalization 下改变 λ 和 η 时,CIFAR-10 上的经验性表现有哪些?
主要发现
- 在归一化下,L2 正则化并不对函数进行正则化;它只将权重推向更小的尺度。
- 梯度因此以及有效学习率取决于权重尺度,导致对于若干优化器 ηeff 与 ||w||^2 成反比。
- 在归一化条件下,减小权重尺度会增大有效学习率,若不加控制可能使训练不稳定。
- 对于 SGD 和 Nesterov 动量,最优学习率趋于 η* ∝ 1/λ;对于 RMSProp 和 ADAM,η* ∝ 1/√λ。
- 每次更新后将权重归一化为单位范数在很大程度上移除了 λ 对训练动态的影响。
- 对 CIFAR-10 的实验表明恒定 ηeff 的对角线大致表现出恒定的测试误差,支持理论 ηeff 关系。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。