[论文解读] SARAH: A Novel Method for Machine Learning Problems Using Stochastic Recursive Gradient
SARAH introduces a stochastic recursive gradient method for finite-sum minimization that uses past gradient information in a recursive update, achieves linear convergence for strongly convex problems, does not require storing past gradients, and includes a practical variant SARAH+ with adaptive inner-loop stopping.
In this paper, we propose a StochAstic Recursive grAdient algoritHm (SARAH), as well as its practical variant SARAH+, as a novel approach to the finite-sum minimization problems. Different from the vanilla SGD and other modern stochastic methods such as SVRG, S2GD, SAG and SAGA, SARAH admits a simple recursive framework for updating stochastic gradient estimates; when comparing to SAG/SAGA, SARAH does not require a storage of past gradients. The linear convergence rate of SARAH is proven under strong convexity assumption. We also prove a linear convergence rate (in the strongly convex case) for an inner loop of SARAH, the property that SVRG does not possess. Numerical experiments demonstrate the efficiency of our algorithm.
研究动机与目标
- 为监督学习中出现的大规模有限和问题带来高效优化的动力与动机。
- 开发一种方差减少的随机梯度方法,使梯度递归更新而无需存储所有过去的梯度。
- 建立收敛性保证:在强凸性下实现线性收敛,在一般凸设定下实现亚线性收敛。
- 提供一个实用的变体(SARAH+),具有基于 ||v_t||^2 的自适应内循环停止以提升鲁棒性和性能。
提出的方法
- 对 SARAH 进行外循环全梯度评估,内循环使用 v_t = ∇f_i(w_t) − ∇f_i(w_{t−1}) + v_{t−1} 且 w_{t+1} = w_t − η v_t 的更新。
- 证明 SARAH 在一般情况下不是无偏梯度估计量,但 E[v_t] = E[∇P(w_t)],从而可进行收敛性分析。
- 在 μ-强凸性的条件下,给出内循环梯度估计的线性收敛性,前提是合适地选择步长 η。
- 给出一般凸和强凸情形的收敛性结果,包括一般凸性下的亚线性收敛以及在合适参数选择下的线性收敛。
- 提出 SARAH+ 作为一个实用变体,其基于 ||v_t||^2 的自适应内循环停止,并采用另一种最终化规则(t 取最后一个内循环的下标)。
- 在存储、学习率要求和收敛性保证方面,将 SARAH 与 SVRG、SAG/SAGA、以及 SGD 变体进行对比。
实验结果
研究问题
- RQ1SARAH 是否能在低存储成本下实现对强凸有限和问题的线性收敛?
- RQ2递归梯度更新与 SVRG 及 SAG/SAGA 相比,在方差减少和稳定性方面有何影响?
- RQ3在 SARAH 下的一般凸和强凸设定的收敛性保证如何,SARAH+ 如何提升实际性能?
- RQ4内循环大小 m 和学习率 η 对不同数据集的收敛性与鲁棒性有何影响?
主要发现
- 在强凸设定下,SARAH 以学习率 η = O(1/L) 实现线性收敛,内循环大小 m 相对于条件数 κ 选择。
- SARAH 的内循环步的方差随时间降低,更新比 SVRG 更稳定,内循环线性收敛性已建立(Theorem 1a/1b)。
- 在一般凸情形下,SARAH 实现亚线性收敛,并且通过多轮外循环,总复杂度为 O((n + 1/ε) log(1/ε))。
- 在强凸情形下,SARAH 实现总复杂度 O((n + κ) log(1/ε)),与 SVRG 和 SAG 相似,SARAH 提供更小的收敛速率常数和更高的稳定性。
- SARAH+ 提供基于 ||v_t||^2 的自适应内循环停止准则,使其在各种数据集上具有鲁棒性,且通常比 SVRG 需要的调参更少。
- 在多个数据集上的实验结果表明,SARAH 和 SARAH+ 在损失下降和测试准确率方面优于或接近最先进的一阶方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。