Skip to main content
QUICK REVIEW

[论文解读] SARAH: A Novel Method for Machine Learning Problems Using Stochastic Recursive Gradient

Lam M. Nguyen, Jie Liu|arXiv (Cornell University)|Feb 28, 2017
Stochastic Gradient Optimization Techniques被引用 267
一句话总结

SARAH introduces a stochastic recursive gradient method for finite-sum minimization that uses past gradient information in a recursive update, achieves linear convergence for strongly convex problems, does not require storing past gradients, and includes a practical variant SARAH+ with adaptive inner-loop stopping.

ABSTRACT

In this paper, we propose a StochAstic Recursive grAdient algoritHm (SARAH), as well as its practical variant SARAH+, as a novel approach to the finite-sum minimization problems. Different from the vanilla SGD and other modern stochastic methods such as SVRG, S2GD, SAG and SAGA, SARAH admits a simple recursive framework for updating stochastic gradient estimates; when comparing to SAG/SAGA, SARAH does not require a storage of past gradients. The linear convergence rate of SARAH is proven under strong convexity assumption. We also prove a linear convergence rate (in the strongly convex case) for an inner loop of SARAH, the property that SVRG does not possess. Numerical experiments demonstrate the efficiency of our algorithm.

研究动机与目标

  • 为监督学习中出现的大规模有限和问题带来高效优化的动力与动机。
  • 开发一种方差减少的随机梯度方法,使梯度递归更新而无需存储所有过去的梯度。
  • 建立收敛性保证:在强凸性下实现线性收敛,在一般凸设定下实现亚线性收敛。
  • 提供一个实用的变体(SARAH+),具有基于 ||v_t||^2 的自适应内循环停止以提升鲁棒性和性能。

提出的方法

  • 对 SARAH 进行外循环全梯度评估,内循环使用 v_t = ∇f_i(w_t) − ∇f_i(w_{t−1}) + v_{t−1} 且 w_{t+1} = w_t − η v_t 的更新。
  • 证明 SARAH 在一般情况下不是无偏梯度估计量,但 E[v_t] = E[∇P(w_t)],从而可进行收敛性分析。
  • 在 μ-强凸性的条件下,给出内循环梯度估计的线性收敛性,前提是合适地选择步长 η。
  • 给出一般凸和强凸情形的收敛性结果,包括一般凸性下的亚线性收敛以及在合适参数选择下的线性收敛。
  • 提出 SARAH+ 作为一个实用变体,其基于 ||v_t||^2 的自适应内循环停止,并采用另一种最终化规则(t 取最后一个内循环的下标)。
  • 在存储、学习率要求和收敛性保证方面,将 SARAH 与 SVRG、SAG/SAGA、以及 SGD 变体进行对比。

实验结果

研究问题

  • RQ1SARAH 是否能在低存储成本下实现对强凸有限和问题的线性收敛?
  • RQ2递归梯度更新与 SVRG 及 SAG/SAGA 相比,在方差减少和稳定性方面有何影响?
  • RQ3在 SARAH 下的一般凸和强凸设定的收敛性保证如何,SARAH+ 如何提升实际性能?
  • RQ4内循环大小 m 和学习率 η 对不同数据集的收敛性与鲁棒性有何影响?

主要发现

  • 在强凸设定下,SARAH 以学习率 η = O(1/L) 实现线性收敛,内循环大小 m 相对于条件数 κ 选择。
  • SARAH 的内循环步的方差随时间降低,更新比 SVRG 更稳定,内循环线性收敛性已建立(Theorem 1a/1b)。
  • 在一般凸情形下,SARAH 实现亚线性收敛,并且通过多轮外循环,总复杂度为 O((n + 1/ε) log(1/ε))。
  • 在强凸情形下,SARAH 实现总复杂度 O((n + κ) log(1/ε)),与 SVRG 和 SAG 相似,SARAH 提供更小的收敛速率常数和更高的稳定性。
  • SARAH+ 提供基于 ||v_t||^2 的自适应内循环停止准则,使其在各种数据集上具有鲁棒性,且通常比 SVRG 需要的调参更少。
  • 在多个数据集上的实验结果表明,SARAH 和 SARAH+ 在损失下降和测试准确率方面优于或接近最先进的一阶方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。