[论文解读] Bad Global Minima Exist and SGD Can Reach Them
本文表明,在过参数化的深度神经网络中存在不良全局最小值——即模型在训练误差为零但泛化性能差的情况。通过从随机标签拟合中获得的对抗性初始化,SGD 在 CIFAR、CINIC10 和 ImageNet 上快速收敛到这些性能较差的解,导致测试准确率最高下降 40%;然而,正则化技术(如数据增强)可恢复泛化性能。
Several recent works have aimed to explain why severely overparameterized models, generalize well when trained by Stochastic Gradient Descent (SGD). The emergent consensus explanation has two parts: the first is that there are bad local while the second is that SGD performs implicit regularization by having a bias towards low complexity models. We revisit both of these ideas in the context of image classification with common deep neural network architectures. Our first finding is that there exist bad global minima, i.e., models that fit the training set perfectly, yet have poor generalization. Our second finding is that given only unlabeled training data, we can easily construct initializations that will cause SGD to quickly converge to such bad global minima. For example, on CIFAR, CINIC10, and (Restricted) ImageNet, this can be achieved by starting SGD at a model derived by fitting random labels on the training data: while subsequent SGD training (with the correct labels) will reach zero training error, the resulting model will exhibit a test accuracy degradation of up to 40% compared to training from a random initialization. Finally, we show that regularization seems to provide SGD with an escape route: once heuristics such as data augmentation are used, starting from a complex model (adversarial initialization) has no effect on the test accuracy.
研究动机与目标
- 研究在通过 SGD 训练的过参数化深度神经网络中,不良全局最小值是否存在。
- 检查当从复杂、对抗性的模型初始化时,SGD 是否能收敛到此类泛化性能差的解。
- 评估正则化在帮助 SGD 逃离不良全局最小值中的作用。
- 测试从随机标签拟合中获得的对抗性初始化是否会导致标准图像分类基准上的测试性能下降。
提出的方法
- 通过在训练集的随机打乱标签上训练模型,构建对抗性初始化。
- 使用这些对抗性模型作为初始值启动 SGD,并在正确标签上进行训练,以评估其是否收敛到全局最小值。
- 测量训练和测试准确率,以评估收敛后的泛化性能。
- 比较从随机权重初始化与对抗性初始化的模型之间的测试准确率。
- 应用数据增强及其他正则化启发式方法,评估其对逃离不良解的影响。
- 在 CIFAR-10、CINIC-10 和(受限版)ImageNet 上进行实验,以在多个数据集上验证发现。
实验结果
研究问题
- RQ1在标准图像分类数据集上,通过 SGD 训练的过参数化深度网络中是否存在不良全局最小值?
- RQ2当从一个在随机标签上训练的模型初始化时,SGD 是否能收敛到此类不良全局最小值?
- RQ3使用数据增强及其他正则化技术是否能帮助 SGD 逃离这些不良解?
- RQ4与随机初始化相比,从对抗性初始化开始时,测试准确率会下降多少?
- RQ5当应用正则化时,SGD 的泛化性能是否对初始化的选择敏感?
主要发现
- 不良全局最小值存在于深度神经网络中,即模型可实现零训练误差,但泛化性能差。
- 当从在随机标签上训练的模型初始化时,SGD 可迅速收敛到这些不良全局最小值。
- 在 CIFAR-10、CINIC-10 和(受限版)ImageNet 上,此类对抗性初始化导致测试准确率相比随机初始化最高下降 40%。
- 使用数据增强及其他正则化启发式方法可恢复泛化性能,有效使 SGD 逃离不良解。
- 正则化为 SGD 提供了一条逃离路径,使最终模型的性能对初始化选择具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。