[论文解读] Do We Need Zero Training Loss After Achieving Zero Training Error?
本文提出 flooding,一种正则化技术,通过简单的 |J(θ)−b|+b 目标使训练损失维持在一个较小的 flood 水平值附近,从而可能提高泛化并在测试损失中诱导双重下降。
Overparameterized deep networks have the capacity to memorize training data with zero \emph{training error}. Even after memorization, the \emph{training loss} continues to approach zero, making the model overconfident and the test performance degraded. Since existing regularizers do not directly aim to avoid zero training loss, it is hard to tune their hyperparameters in order to maintain a fixed/preset level of training loss. We propose a direct solution called \emph{flooding} that intentionally prevents further reduction of the training loss when it reaches a reasonably small value, which we call the \emph{flood level}. Our approach makes the loss float around the flood level by doing mini-batched gradient descent as usual but gradient ascent if the training loss is below the flood level. This can be implemented with one line of code and is compatible with any stochastic optimizer and other regularizers. With flooding, the model will continue to "random walk" with the same non-zero training loss, and we expect it to drift into an area with a flat loss landscape that leads to better generalization. We experimentally show that flooding improves performance and, as a byproduct, induces a double descent curve of the test loss.
研究动机与目标
- 在过参数化的网络中,训练损失达到零时对过拟合问题进行动机说明。
- 引入一种通过强制保持非零 flood 水平来直接控制训练损失的方法。
- 证明 flooding 与标准优化器及其他正则化方法的兼容性。
- 在合成数据集和基准数据集上经验性评估 flooding,以评估泛化增益。
提出的方法
- 定义 flooded objective: ρθJ(θ)=|J(θ)−b|+b, 其中 b>0 是 flood 水平。
- 解释梯度含义:在 J> b 时为向下的重力(最小化),在 J< b 时为浮力(上升)。
- 通过小批量更新实现,在计算 J(θ) 之后只需修改一行代码。
- 将 b 视为超参数并进行并行搜索以优化验证准确率。
- 展示 flooding 可以与其他正则化方法(如提前停止、权重衰减、数据增强等)结合。
- 提供一个理论注记:在某些条件下,flooded 风险估计量的均方误差低于原始估计量。
实验结果
研究问题
- RQ1通过 flooding 维持非零训练损失是否相比标准训练能提高泛化。
- RQ2应如何选择 flood 水平 b,以及它与 Bayes 风险和数据集难度之间的关系?
- RQ3flooding 与其他正则化方法和训练策略(如提前停止、数据增强等)之间的交互是什么?
- RQ4flooding 是否会产生测试损失中的双重下降等可观察现象,以及其机制是什么?
主要发现
- 在合成数据和基准数据集上,flooding 常常相比无 flooding 的基线提升测试准确度。
- 最优 flood 水平往往会随着标签噪声的增加而升高,表明 flood 水平与 Bayes 风险之间存在关系。
- flooding 与其他正则化方法的组合通常产生互补收益,并且可以再现测试损失的双重下降。
- 在通过验证选择的 flood 水平下,仍可能发生记忆化(训练误差为零),但更高的 flood 水平可以防止训练损失为零。
- 使用 flooding 的训练通常会得到更平坦的测试损失景观和更小的梯度幅度,提示更好的泛化动力学。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。