Skip to main content
QUICK REVIEW

[论文解读] Stochastic Recursive Gradient Algorithm for Nonconvex Optimization

Lam M. Nguyen, Jie Liu|arXiv (Cornell University)|May 20, 2017
Stochastic Gradient Optimization Techniques参考文献 15被引用 67
一句话总结

本文分析用于非凸有限和问题的小批量 SARAH,证明在一般非凸函数下具有亚线性收敛,在梯度支配情形下具有线性收敛,并给出关于小批量效应的见解。

ABSTRACT

In this paper, we study and analyze the mini-batch version of StochAstic Recursive grAdient algoritHm (SARAH), a method employing the stochastic recursive gradient, for solving empirical loss minimization for the case of nonconvex losses. We provide a sublinear convergence rate (to stationary points) for general nonconvex functions and a linear convergence rate for gradient dominated functions, both of which have some advantages compared to other modern stochastic gradient algorithms for nonconvex losses.

研究动机与目标

  • 在机器学习中常见的大规模有限-和非凸问题上,促进高效优化。

提出的方法

  • 提出了一种具有外部循环和内部循环、与 SVRG 类似的 mini-batch SARAH 算法,但使用递归梯度估计器。
  • 内部循环更新:v_t = (1/b) sum_{i in I_t} [∇f_i(w_t) − ∇f_i(w_{t-1})] + v_{t-1},并且 w_{t+1} = w_t − η v_t
  • 在每个外部循环开始时计算全梯度;每个外部循环的复杂度为 O(n + bm) 次梯度评估。
  • 在 L-光滑性(假设 1)和梯度支配性(假设 2)下给出理论收敛性分析。
  • 通过 η 和 m 的参数选取推导出 SARAH-IN 的亚线性收敛以及梯度支配函数的线性收敛。
  • 讨论小批量大小 b 对收敛性的作用,包括推导出关于 b 对收敛速率和总复杂度影响的推论。

实验结果

研究问题

  • RQ1小批量 SARAH 在一般非凸目标下能达到哪些收敛速率?
  • RQ2在何种条件下,SARAH 在梯度支配的非凸函数上具有线性收敛?
  • RQ3小批量大小如何影响 SARAH 的收敛和复杂度界?
  • RQ4在理论与实践中,SARAH 与 SGD、SVRG 和 GD 在非凸经验损失最小化中的比较如何?
  • RQ5在神经网络上实现 SARAH及其变体(如 SARAH+)时,会出现哪些实际考虑因素?

主要发现

方法非凸Tau-梯度支配
GDO(nL/ε)O(nLτ log(1/ε))
SGDO(Lσ^2/ε^2)O(Lτσ^2/ε^2)
SVRGO(n + n^{2/3}L/νε)O((n + n^{2/3}Lτ/ν) log(1/ε))
SARAHO(n + L^2/ε^2)O((n + L^2τ^2) log(1/ε))
  • 在适当的 η 和内部循环长度 m 下,SARAH-IN 在一般非凸 P 的期望意义上实现亚线性收敛。
  • 对于梯度支配的(τ-梯度支配)P,SARAH 在合适的 η 和 m 下达到对全局最小值的线性收敛,收敛率取决于 τ 和 L。
  • 达到 ε-精度的总 IFO 复杂度在一般非凸设定下为 O(n + L^2/ε^2),而在梯度支配情形下为 O((n + L^2 τ^2) log(1/ε))
  • 小批量大小 b 影响可允许的学习率和内部循环大小,较大的 b 可以实现更快的实际收敛。
  • 实用的 SARAH+ 变体使用自适应内部循环终止,并在神经网络 (MNIST, CIFAR-10) 上对抗 SVRG 和基于 SGD 的方法,表现具有竞争力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。