Skip to main content
QUICK REVIEW

[论文解读] Fast and Faster Convergence of SGD for Over-Parameterized Models and an Accelerated Perceptron

Sharan Vaswani, Francis Bach|arXiv (Cornell University)|Oct 16, 2018
Stochastic Gradient Optimization Techniques参考文献 42被引用 25
一句话总结

该论文证明,在强增长条件(SGC)下,带Nesterov加速的常步长随机梯度下降(SGD)在过参数化模型中,对凸函数和强凸函数均能达到确定性加速收敛速率。此外,研究还表明,在较弱的基于插值的增长条件下,常步长SGD可匹配确定性收敛速率,并证明了使用平方合页损失的随机感知机在O(1/k²)的误分类次数边界内表现良好。

ABSTRACT

Modern machine learning focuses on highly expressive models that are able to fit or interpolate the data completely, resulting in zero training loss. For such models, we show that the stochastic gradients of common loss functions satisfy a strong growth condition. Under this condition, we prove that constant step-size stochastic gradient descent (SGD) with Nesterov acceleration matches the convergence rate of the deterministic accelerated method for both convex and strongly-convex functions. We also show that this condition implies that SGD can find a first-order stationary point as efficiently as full gradient descent in non-convex settings. Under interpolation, we further show that all smooth loss functions with a finite-sum structure satisfy a weaker growth condition. Given this weaker condition, we prove that SGD with a constant step-size attains the deterministic convergence rate in both the strongly-convex and convex settings. Under additional assumptions, the above results enable us to prove an O(1/k^2) mistake bound for k iterations of a stochastic perceptron algorithm using the squared-hinge loss. Finally, we validate our theoretical findings with experiments on synthetic and real datasets.

研究动机与目标

  • 弥合过参数化模型中加速SGD的实证成功与理论理解之间的差距。
  • 分析在现代机器学习模型特有的插值与增长条件下,常步长SGD的收敛速率。
  • 在强增长条件(SGC)下,为凸与非凸设置建立加速收敛。
  • 基于插值性质,推导使用平方合页损失的随机感知机算法的误分类次数边界。

提出的方法

  • 引入强增长条件(SGC)作为关键假设,将过参数化模型中的随机梯度与完整梯度联系起来。
  • 证明在SGC下,带Nesterov加速的常步长SGD对凸函数与强凸函数可达到确定性加速收敛速率。
  • 证明在插值条件下,所有光滑有限和损失函数均满足一个更弱的增长条件,从而使得常步长SGD在凸与强凸设置下可匹配确定性收敛速率。
  • 在SGC下,证明常步长SGD在非凸设置中找到一阶驻点的效率与完整梯度下降相当。
  • 在插值条件下,基于平方合页损失,推导出随机感知机在k次迭代下的O(1/k²)误分类次数边界。
  • 通过在合成数据集与真实数据集上使用线搜索启发式方法进行步长自适应,验证理论结果。

实验结果

研究问题

  • RQ1在过参数化模型中,带Nesterov加速的常步长SGD能否实现确定性加速收敛速率?
  • RQ2强增长条件(SGC)是否意味着常步长SGD在凸与强凸设置下可匹配确定性收敛速率?
  • RQ3是否可利用更弱的基于插值的增长条件,证明光滑有限和损失的常步长收敛速率?
  • RQ4SGC是否使SGD在非凸优化中找到一阶驻点的效率与完整梯度下降相当?
  • RQ5基于插值与SGC,使用平方合页损失的随机感知机算法可推导出何种误分类次数边界?

主要发现

  • 在强增长条件(SGC)下,带Nesterov加速的常步长SGD对凸函数与强凸函数均能达到确定性加速收敛速率。
  • 在插值条件下,光滑有限和损失函数满足一个更弱的增长条件,使得常步长SGD在凸与强凸设置下可匹配确定性收敛速率。
  • 在SGC下,常步长SGD在非凸优化问题中找到一阶驻点的效率与完整梯度下降相当。
  • 论文证明了在插值条件下,使用平方合页损失的随机感知机在k次迭代下具有O(1/k²)的误分类次数边界。
  • 在合成数据集与真实数据集上的实验验证了理论发现,表明使用线搜索启发式方法时收敛稳定且迅速。
  • 所提出的线搜索启发式方法提升了实际收敛性能,Acc-SGD(LS)在多种设置下达到或超越Acc-SGD(T)的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。