[论文解读] Understanding deep learning requires rethinking generalization
本文表明现代深度网络可以记忆随机标签/像素,这挑战了传统的泛化理论,并证明了简单网络的有限样本表达能力,主张通过SGD的隐式正则化是关键。
Despite their massive size, successful deep artificial neural networks can exhibit a remarkably small difference between training and test performance. Conventional wisdom attributes small generalization error either to properties of the model family, or to the regularization techniques used during training. Through extensive systematic experiments, we show how these traditional approaches fail to explain why large neural networks generalize well in practice. Specifically, our experiments establish that state-of-the-art convolutional networks for image classification trained with stochastic gradient methods easily fit a random labeling of the training data. This phenomenon is qualitatively unaffected by explicit regularization, and occurs even if we replace the true images by completely unstructured random noise. We corroborate these experimental findings with a theoretical construction showing that simple depth two neural networks already have perfect finite sample expressivity as soon as the number of parameters exceeds the number of data points as it usually does in practice. We interpret our experimental findings by comparison with traditional models.
研究动机与目标
- 质疑为何高容量的大型神经网络能够泛化。
- 测试基于传统复杂度测度的框架是否能解释深度网络的泛化。
- 探讨深度学习中显式正则化与隐式正则化的作用。
- 展示神经网络在对数据记忆方面的有限样本表达能力。
提出的方法
- 通过在带有随机标签的数据上训练标准架构来进行随机化测试。
- 用随机像素替换真实图像并改变噪声水平以评估拟合能力。
- 有/无显式正则化器(权重衰减、 dropout、数据增强)进行训练并比较泛化。
- 在理论上构建一个具有 p = 2n + d 参数的两层 ReLU 网络,能够拟合在 d 维中的大小为 n 的样本的任意标记。
- 通过将解与线性模型中的最小范数解联系起来来分析 SGD 作为隐式正则化器。
- 讨论对 VC-维、Rademacher 复杂度和一致稳定性的影响。
实验结果
研究问题
- RQ1当标签被随机化时,深度网络是否能够拟合训练数据,这对有效容量意味着什么?
- RQ2显式正则化是否能充分解释泛化,还是通过优化的隐式正则化更为关键?
- RQ3有限样本表达能力如何限制我们对网络泛化的理解?
- RQ4优化动力学(SGD)在众多插值解中的选择起何作用?
- RQ5标准复杂度度量(VC、Rademacher、稳定性)与观察到的深度学习泛化之间如何对齐?
主要发现
- 在 CIFAR-10 和 ImageNet 上,深度网络对随机标签也能达到零训练误差,表明有足够的容量来记忆数据。
- 当标签被随机化时,泛化误差会增加,尽管训练误差仍为零,这挑战了基于传统复杂度的解释。
- 显式正则化器(权重衰减、 dropout、数据增强)可以提高泛化,但在这些任务上并非实现良好泛化的必要条件。
- 一个具有 2n + d 参数的简单两层 ReLU 网络可以表示在 d 维中 n 点样本的任意标记,显示出强大的有限样本表达能力。
- 在线性设定中,SGD 充当隐式正则化器,最小范数解也能很好泛化,这表明优化动力学对泛化的贡献不仅限于显式正则化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。