QUICK REVIEW

[论文解读] SARAH: A Novel Method for Machine Learning Problems Using Stochastic Recursive Gradient

Lam M. Nguyen, Jie Liu|arXiv (Cornell University)|Feb 28, 2017

Stochastic Gradient Optimization Techniques被引用 267

一句话总结

SARAH introduces a stochastic recursive gradient method for finite-sum minimization that uses past gradient information in a recursive update, achieves linear convergence for strongly convex problems, does not require storing past gradients, and includes a practical variant SARAH+ with adaptive inner-loop stopping.

ABSTRACT

In this paper, we propose a StochAstic Recursive grAdient algoritHm (SARAH), as well as its practical variant SARAH+, as a novel approach to the finite-sum minimization problems. Different from the vanilla SGD and other modern stochastic methods such as SVRG, S2GD, SAG and SAGA, SARAH admits a simple recursive framework for updating stochastic gradient estimates; when comparing to SAG/SAGA, SARAH does not require a storage of past gradients. The linear convergence rate of SARAH is proven under strong convexity assumption. We also prove a linear convergence rate (in the strongly convex case) for an inner loop of SARAH, the property that SVRG does not possess. Numerical experiments demonstrate the efficiency of our algorithm.

研究动机与目标

为监督学习中出现的大规模有限和问题带来高效优化的动力与动机。
开发一种方差减少的随机梯度方法，使梯度递归更新而无需存储所有过去的梯度。
建立收敛性保证：在强凸性下实现线性收敛，在一般凸设定下实现亚线性收敛。
提供一个实用的变体（SARAH+），具有基于 ||v_t||^2 的自适应内循环停止以提升鲁棒性和性能。

提出的方法

对 SARAH 进行外循环全梯度评估，内循环使用 v_t = ∇f_i(w_t) − ∇f_i(w_{t−1}) + v_{t−1} 且 w_{t+1} = w_t − η v_t 的更新。
证明 SARAH 在一般情况下不是无偏梯度估计量，但 E[v_t] = E[∇P(w_t)]，从而可进行收敛性分析。
在 μ-强凸性的条件下，给出内循环梯度估计的线性收敛性，前提是合适地选择步长 η。
给出一般凸和强凸情形的收敛性结果，包括一般凸性下的亚线性收敛以及在合适参数选择下的线性收敛。
提出 SARAH+ 作为一个实用变体，其基于 ||v_t||^2 的自适应内循环停止，并采用另一种最终化规则（t 取最后一个内循环的下标）。
在存储、学习率要求和收敛性保证方面，将 SARAH 与 SVRG、SAG/SAGA、以及 SGD 变体进行对比。

实验结果

研究问题

RQ1SARAH 是否能在低存储成本下实现对强凸有限和问题的线性收敛？
RQ2递归梯度更新与 SVRG 及 SAG/SAGA 相比，在方差减少和稳定性方面有何影响？
RQ3在 SARAH 下的一般凸和强凸设定的收敛性保证如何，SARAH+ 如何提升实际性能？
RQ4内循环大小 m 和学习率 η 对不同数据集的收敛性与鲁棒性有何影响？

主要发现

在强凸设定下，SARAH 以学习率 η = O(1/L) 实现线性收敛，内循环大小 m 相对于条件数 κ 选择。
SARAH 的内循环步的方差随时间降低，更新比 SVRG 更稳定，内循环线性收敛性已建立（Theorem 1a/1b）。
在一般凸情形下，SARAH 实现亚线性收敛，并且通过多轮外循环，总复杂度为 O((n + 1/ε) log(1/ε))。
在强凸情形下，SARAH 实现总复杂度 O((n + κ) log(1/ε))，与 SVRG 和 SAG 相似，SARAH 提供更小的收敛速率常数和更高的稳定性。
SARAH+ 提供基于 ||v_t||^2 的自适应内循环停止准则，使其在各种数据集上具有鲁棒性，且通常比 SVRG 需要的调参更少。
在多个数据集上的实验结果表明，SARAH 和 SARAH+ 在损失下降和测试准确率方面优于或接近最先进的一阶方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。