Skip to main content
QUICK REVIEW

[论文解读] Painless Stochastic Gradient: Interpolation, Line-Search, and Convergence Rates

Sharan Vaswani, Aaron Mishkin|arXiv (Cornell University)|May 23, 2019
Stochastic Gradient Optimization Techniques被引用 84
一句话总结

论文提出了带 Armijo 和 Lipschitz 线搜索的 SGD 和 SEG 变体,在插值下自动设定步长,证明了凸、强凸、非凸以及鞍点问题的快速收敛速率,并展示了具有竞争力的经验性能。

ABSTRACT

Recent works have shown that stochastic gradient descent (SGD) achieves the fast convergence rates of full-batch gradient descent for over-parameterized models satisfying certain interpolation conditions. However, the step-size used in these works depends on unknown quantities and SGD's practical performance heavily relies on the choice of this step-size. We propose to use line-search techniques to automatically set the step-size when training models that can interpolate the data. In the interpolation setting, we prove that SGD with a stochastic variant of the classic Armijo line-search attains the deterministic convergence rates for both convex and strongly-convex functions. Under additional assumptions, SGD with Armijo line-search is shown to achieve fast convergence for non-convex functions. Furthermore, we show that stochastic extra-gradient with a Lipschitz line-search attains linear convergence for an important class of non-convex functions and saddle-point problems satisfying interpolation. To improve the proposed methods' practical performance, we give heuristics to use larger step-sizes and acceleration. We compare the proposed algorithms against numerous optimization methods on standard classification tasks using both kernel methods and deep networks. The proposed methods result in competitive performance across all models and datasets, while being robust to the precise choices of hyper-parameters. For multi-class classification using deep networks, SGD with Armijo line-search results in both faster convergence and better generalization.

研究动机与目标

  • 在过参数化、插值模型中推动对 SGD 的自动步长选择。
  • 在插值条件下,证明带 Armijo 线搜索的 SGD 在凸和强凸情形中的收敛速率。
  • 将线搜索变体推广到非凸优化和鞍点问题。
  • 提出带 Lipschitz 线搜索的随机额外梯度法,并在插值条件下对 RSI 下建立线性收敛。
  • 提供实用启发式方法并在核方法与深度网络中进行经验验证。

提出的方法

  • 通过对 f_{ik}(w_k) 和梯度范数使用基于小批量的线性条件,将 Armijo 线搜索自适应到随机 SGD。
  • 证明收敛速率:在强凸和凸情形下线性收敛,且在插值条件下与全梯度 GD 相匹配。
  • 证明在增长条件和步长上界下,带 Armijo 线搜索的非凸 SGD 达到 O(1/T) 速率。
  • 引入用于 SEG 的 Lipschitz 线搜索,以处理非凸 RSI 问题,并在插值下证明线性收敛。
  • 提供实用的重置与加速启发式方法,以提升线搜索性能和鲁棒性。

实验结果

研究问题

  • RQ1基于 Armijo 的线搜索是否能够使 SGD 在插值条件下,在凸和强凸设置下达到与全批量收敛相匹配的速率?
  • RQ2在非凸/插值条件下,带线搜索的 SGD 能获得哪些收敛性保证?
  • RQ3在插值条件下,带 Lipschitz 线搜索的 SEG 是否能够在满足 RSI 的非凸问题和某些鞍点问题上实现线性收敛?
  • RQ4实际启发式方法(步长重置、加速)在启用插值的条件下如何影响性能和鲁棒性?

主要发现

  • 使用随机 Armijo 线搜索的 SGD 在插值条件下对凸函数和强凸函数实现确定性的收敛速率,等同于全批量 GD。
  • 对于满足插值和增长条件的非凸函数,带 Armijo 线搜索的 SGD 获得 O(1/T) 速率。
  • 带 Lipschitz 线搜索的 SEG 在插值下对 RSI 满足的非凸问题和某些鞍点问题实现线性收敛。
  • 这些方法在核方法和深度网络中展现出竞争力的性能,在深度学习任务中拥有更快的收敛和更好的泛化。
  • 实际启发式方法(更大步长、重置策略和加速)在不需要精确 Lipschitz 常数的情况下提升了运行时间和鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。