Skip to main content
QUICK REVIEW

[论文解读] Minimum norm solutions do not always generalize well for over-parameterized problems

Vatsal Shah, Anastasios Kyrillidis|arXiv (Cornell University)|Nov 16, 2018
Stochastic Gradient Optimization Techniques被引用 15
一句话总结

本文挑战了在过参数化模型中最小范数解泛化能力最佳的假设,通过实证分析表明,自适应优化方法即使产生更大的权重范数,也能优于SGD。其主要贡献在于证明在实际深度学习设置中,泛化性能并非严格由权重范数最小化所决定。

ABSTRACT

This work is substituted by the paper in arXiv:2011.14066. Stochastic gradient descent is the de facto algorithm for training deep neural networks (DNNs). Despite its popularity, it still requires fine tuning in order to achieve its best performance. This has led to the development of adaptive methods, that claim automatic hyper-parameter optimization. Recently, researchers have studied both algorithmic classes via toy examples: e.g., for over-parameterized linear regression, Wilson et. al. (2017) shows that, while SGD always converges to the minimum-norm solution, adaptive methods show no such inclination, leading to worse generalization capabilities. Our aim is to study this conjecture further. We empirically show that the minimum weight norm is not necessarily the proper gauge of good generalization in simplified scenaria, and different models found by adaptive methods could outperform plain gradient methods. In practical DNN settings, we observe that adaptive methods can outperform SGD, with larger weight norm output models, but without necessarily reducing the amount of tuning required.

研究动机与目标

  • 调查在过参数化设置中,最小范数解是否始终具有更好的泛化能力。
  • 在简化和实际的深度学习场景中,评估自适应优化方法相对于SGD的泛化性能。
  • 确定权重范数是否是过参数化模型中泛化性能的可靠代理指标。
  • 评估自适应方法在实践中是否真正减少了对超参数调优的需求。

提出的方法

  • 在过参数化的线性回归和简单神经网络设置中,对SGD和自适应方法(如Adam)进行实证评估。
  • 比较不同权重范数(包括最小范数和非最小范数解)模型之间的泛化性能。
  • 在受控环境下使用SGD和自适应方法训练深度神经网络,以观察测试准确率和权重范数动态变化。
  • 分析不同优化轨迹下权重范数大小与泛化误差之间的关系。
  • 使用小样本示例和真实DNN架构,在简化和实际设置中验证研究发现。

实验结果

研究问题

  • RQ1在过参数化问题中,最小范数解是否总是具有更好的泛化能力?
  • RQ2自适应优化方法是否能在产生更大权重范数的情况下,仍优于SGD的泛化性能?
  • RQ3在深度学习模型中,权重范数是否是泛化性能的可靠指标?
  • RQ4在实践中,自适应方法在多大程度上减少了对超参数调优的需求?

主要发现

  • 在过参数化设置中,最小范数解并不总是优于非最小范数解的泛化性能。
  • 自适应方法(如Adam)即使生成显著更大的权重范数,仍可实现优于SGD的泛化性能。
  • 在实际的深度神经网络训练中,自适应方法优于SGD,但并不一定减少所需的超参数调优量。
  • 实证结果挑战了理论假设,即最小权重范数意味着过参数化模型中的最优泛化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。