QUICK REVIEW

[论文解读] Early Stopping without a Validation Set

Maren Mahsereci, Lukas Balles|arXiv (Cornell University)|Mar 28, 2017

Neural Networks and Applications参考文献 15被引用 27

一句话总结

本文提出了一种名为 eb-criterion 的新型早停方法，通过使用计算快速的局部梯度统计量来检测梯度何时变得嘈杂，从而在无需验证集的情况下识别过拟合信号。该方法可充分利用全部训练数据，在线性模型、逻辑回归和深度神经网络上均实现了具有竞争力的泛化性能，实证结果表明其在数据稀缺场景下优于基于验证集的早停方法。

ABSTRACT

Early stopping is a widely used technique to prevent poor generalization performance when training an over-expressive model by means of gradient-based optimization. To find a good point to halt the optimizer, a common practice is to split the dataset into a training and a smaller validation set to obtain an ongoing estimate of the generalization performance. We propose a novel early stopping criterion based on fast-to-compute local statistics of the computed gradients and entirely removes the need for a held-out validation set. Our experiments show that this is a viable approach in the setting of least-squares and logistic regression, as well as neural networks.

研究动机与目标

为解决标准早停方法依赖保留验证集而导致的训练数据可用性降低的局限性。
开发一种不依赖外部数据划分的过拟合检测准则，从而实现对全部训练数据的充分利用。
利用局部梯度统计量作为优化过程中泛化性能的代理指标。
在包括线性回归、逻辑回归和深度神经网络在内的多种模型上评估该方法。
探索逐元素停止机制，以实现对训练过程中模型复杂度的细粒度控制。

提出的方法

eb-criterion 通过计算每个梯度分量的信噪比来实现，使用平方梯度及其经验方差：$ f_k = m \cdot (\nabla L_\mathcal{B}^k)^2 / \hat{\Sigma}_k $，其中 $ \hat{\Sigma}_k $ 是梯度分量 $ k $ 的估计方差。
整体停止信号为所有参数的 $ f_k $ 的均值，当梯度具有信息量时该值上升，当梯度变得嘈杂时则下降。
该方法使用指数移动平均来随时间平滑梯度统计量，从而实现一个启动阶段，在此阶段所有参数均处于活跃状态。
当平均 $ f_k $ 低于某个阈值时触发停止，表明进一步优化可能引发过拟合。
该方法兼容全批量和随机梯度下降，且计算开销极低。
该方法的一个扩展版本可逐元素应用该准则，允许在梯度信噪比下降后将单个参数‘冻结’。

实验结果

研究问题

RQ1能否仅依赖训练数据梯度，在无需验证集的情况下实现有效的早停？
RQ2局部梯度统计量能否可靠地指示优化过程中过拟合的开始？
RQ3无验证集的早停准则是否能实现优于标准基于验证集方法的泛化性能？
RQ4该方法能否扩展为逐元素参数控制，从而实现实时模型复杂度降低？
RQ5在数据量有限的模型上，该方法表现如何，尤其是在验证集大小受限的情况下？

主要发现

在 SECTOR 数据集上，eb-criterion 的表现优于基于验证集的早停方法，因为小规模验证集导致性能估计方差较高。
在 SECTOR 数据集上，尽管使用了全部训练数据，eb-criterion 的测试损失仍低于基于验证集的早停方法，这是由于泛化估计的方差更低。
在 SECTOR 数据集上对逻辑回归和浅层神经网络的实验表明，eb-criterion 成功防止了过拟合，并在性能上匹配或超越了基于验证集的方法。
在 MNIST 数据集上，逐元素 eb-criterion 在单层中最多冻结了 80% 的参数，整个网络中约有 50% 的参数被冻结，表明有效模型复杂度显著降低。
尽管冻结了大量参数，模型仍达到了与未使用逐元素早停训练的模型相当的测试损失，证明了其在泛化控制方面的有效性。
该方法计算开销可忽略不计，且与标准随机梯度下降兼容，因此在真实世界深度学习应用中具有实用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。