QUICK REVIEW

[论文解读] Stochastic Nested Variance Reduction for Nonconvex Optimization

Dongruo Zhou, Pan Xu|arXiv (Cornell University)|Jun 20, 2018

Stochastic Gradient Optimization Techniques参考文献 45被引用 39

一句话总结

该论文提出了一种新型的随机一阶算法——随机嵌套方差缩减梯度（SNVRG），用于非凸有限和优化。该方法通过使用 K+1 个嵌套参考点构造半随机梯度，实现更快的方差衰减。该方法在寻找 ε-近似驻点时，实现了改进的梯度复杂度 $\widetilde{O}(n \land \epsilon^{-2} + \epsilon^{-3} \land n^{1/2}\epsilon^{-2})$，优于先前的最先进方法如 SVRG 和 SCSG。

ABSTRACT

We study finite-sum nonconvex optimization problems, where the objective function is an average of $n$ nonconvex functions. We propose a new stochastic gradient descent algorithm based on nested variance reduction. Compared with conventional stochastic variance reduced gradient (SVRG) algorithm that uses two reference points to construct a semi-stochastic gradient with diminishing variance in each iteration, our algorithm uses $K+1$ nested reference points to build a semi-stochastic gradient to further reduce its variance in each iteration. For smooth nonconvex functions, the proposed algorithm converges to an $ε$-approximate first-order stationary point (i.e., $\| abla F(\mathbf{x})\|_2\leq ε$) within $ ilde O(n\land ε^{-2}+ε^{-3}\land n^{1/2}ε^{-2})$ number of stochastic gradient evaluations. This improves the best known gradient complexity of SVRG $O(n+n^{2/3}ε^{-2})$ and that of SCSG $O(n\land ε^{-2}+ε^{-10/3}\land n^{2/3}ε^{-2})$. For gradient dominated functions, our algorithm also achieves better gradient complexity than the state-of-the-art algorithms. Thorough experimental results on different nonconvex optimization problems back up our theory.

研究动机与目标

解决现有方差缩减方法在非凸有限和优化中梯度复杂度方面的空白。
在仅依赖光滑性和有界随机梯度方差假设的前提下，降低梯度复杂度对 $n$ 和 $\epsilon$ 的依赖。
开发一种多参考点方差缩减技术，以加速非凸设置下的收敛。
从理论和实证两方面验证嵌套方差缩减相较于 SVRG 和 SCSG 等双参考点方法能实现更快的收敛速度。

提出的方法

该算法使用 $K+1$ 个嵌套参考点来构建半随机梯度，其方差衰减速度优于 SVRG 和 SCSG。
在每次迭代中，梯度被计算为多个嵌套层级上当前梯度与先前参考点梯度差异的归一化和。
该方法采用多周期框架，每个周期包含对 $K$ 个层级的嵌套循环，每个层级具有独立的小批量大小和迭代次数。
最终迭代点从迭代序列中均匀随机选择，以确保鲁棒性和收敛性保证。
该算法设计为在保持低内存使用的同时，通过分层参考点更新实现更快的方差缩减。
理论分析利用嵌套期望与方差分解，以界定梯度范数的期望值。

实验结果

研究问题

RQ1在方差缩减中使用嵌套参考点是否能实现非凸有限和优化中的更快收敛？
RQ2在相同假设下，所提出的 SNVRG 算法是否在梯度复杂度上优于 SVRG 和 SCSG？
RQ3该算法是否能在保持改进收敛速度的同时维持较低的计算开销？
RQ4理论上的梯度复杂度改进是否在标准非凸机器学习基准上具有可观察的实证表现？

主要发现

所提出的 SNVRG 算法在光滑非凸有限和问题中，寻找 $\epsilon$-近似驻点的梯度复杂度为 $\widetilde{O}(n \land \epsilon^{-2} + \epsilon^{-3} \land n^{1/2}\epsilon^{-2})$。
该复杂度优于 SVRG 的最优已知复杂度 $O(n + n^{2/3}\epsilon^{-2})$ 和 SCSG 的复杂度 $O(n \land \epsilon^{-2} + \epsilon^{-10/3} \land n^{2/3}\epsilon^{-2})$。
对于梯度主导函数，SNVRG 在梯度复杂度上也优于最先进算法，证实了其更广泛的应用潜力。
在 MNIST、CIFAR-10 和 SVHN 数据集上的全面实验表明，SNVRG 在训练损失和测试误差方面始终优于 SGD、SGD-momentum、ADAM、SCSG 和基线 SVRG。
该算法在不同数据集和超参数设置下均表现出稳定且更快的收敛速度，尤其是在使用学习率衰减时。
实证结果强有力地支持了理论结论，验证了嵌套方差缩减在降低梯度方差和加速收敛方面的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。