QUICK REVIEW

[论文解读] Stochastic Recursive Gradient Algorithm for Nonconvex Optimization

Lam M. Nguyen, Jie Liu|arXiv (Cornell University)|May 20, 2017

Stochastic Gradient Optimization Techniques参考文献 15被引用 67

一句话总结

本文分析用于非凸有限和问题的小批量 SARAH，证明在一般非凸函数下具有亚线性收敛，在梯度支配情形下具有线性收敛，并给出关于小批量效应的见解。

ABSTRACT

In this paper, we study and analyze the mini-batch version of StochAstic Recursive grAdient algoritHm (SARAH), a method employing the stochastic recursive gradient, for solving empirical loss minimization for the case of nonconvex losses. We provide a sublinear convergence rate (to stationary points) for general nonconvex functions and a linear convergence rate for gradient dominated functions, both of which have some advantages compared to other modern stochastic gradient algorithms for nonconvex losses.

研究动机与目标

在机器学习中常见的大规模有限-和非凸问题上，促进高效优化。

提出的方法

提出了一种具有外部循环和内部循环、与 SVRG 类似的 mini-batch SARAH 算法，但使用递归梯度估计器。
内部循环更新：v_t = (1/b) sum_{i in I_t} [∇f_i(w_t) − ∇f_i(w_{t-1})] + v_{t-1}，并且 w_{t+1} = w_t − η v_t
在每个外部循环开始时计算全梯度；每个外部循环的复杂度为 O(n + bm) 次梯度评估。
在 L-光滑性（假设 1）和梯度支配性（假设 2）下给出理论收敛性分析。
通过 η 和 m 的参数选取推导出 SARAH-IN 的亚线性收敛以及梯度支配函数的线性收敛。
讨论小批量大小 b 对收敛性的作用，包括推导出关于 b 对收敛速率和总复杂度影响的推论。

实验结果

研究问题

RQ1小批量 SARAH 在一般非凸目标下能达到哪些收敛速率？
RQ2在何种条件下，SARAH 在梯度支配的非凸函数上具有线性收敛？
RQ3小批量大小如何影响 SARAH 的收敛和复杂度界？
RQ4在理论与实践中，SARAH 与 SGD、SVRG 和 GD 在非凸经验损失最小化中的比较如何？
RQ5在神经网络上实现 SARAH及其变体（如 SARAH+）时，会出现哪些实际考虑因素？

主要发现

方法	非凸	Tau-梯度支配
GD	O(nL/ε)	O(nLτ log(1/ε))
SGD	O(Lσ^2/ε^2)	O(Lτσ^2/ε^2)
SVRG	O(n + n^{2/3}L/νε)	O((n + n^{2/3}Lτ/ν) log(1/ε))
SARAH	O(n + L^2/ε^2)	O((n + L^2τ^2) log(1/ε))

在适当的 η 和内部循环长度 m 下，SARAH-IN 在一般非凸 P 的期望意义上实现亚线性收敛。
对于梯度支配的（τ-梯度支配）P，SARAH 在合适的 η 和 m 下达到对全局最小值的线性收敛，收敛率取决于 τ 和 L。
达到 ε-精度的总 IFO 复杂度在一般非凸设定下为 O(n + L^2/ε^2)，而在梯度支配情形下为 O((n + L^2 τ^2) log(1/ε))
小批量大小 b 影响可允许的学习率和内部循环大小，较大的 b 可以实现更快的实际收敛。
实用的 SARAH+ 变体使用自适应内部循环终止，并在神经网络 (MNIST, CIFAR-10) 上对抗 SVRG 和基于 SGD 的方法，表现具有竞争力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。