Skip to main content
QUICK REVIEW

[论文解读] ASVRG: Accelerated Proximal SVRG

Fanhua Shang, Licheng Jiao|arXiv (Cornell University)|Oct 7, 2018
Stochastic Gradient Optimization Techniques被引用 21
一句话总结

本文提出 ASVRG,一种加速的近端随机方差缩减梯度方法,通过仅引入一个额外变量和一个动量参数,采用一种简单的动量加速技巧,在保持较低的每次迭代成本的同时,实现了强凸和非强凸问题的最佳已知 oracle 复杂度。在实验评估中,该方法的性能达到或超过当前最先进水平。

ABSTRACT

This paper proposes an accelerated proximal stochastic variance reduced gradient (ASVRG) method, in which we design a simple and effective momentum acceleration trick. Unlike most existing accelerated stochastic variance reduction methods such as Katyusha, ASVRG has only one additional variable and one momentum parameter. Thus, ASVRG is much simpler than those methods, and has much lower per-iteration complexity. We prove that ASVRG achieves the best known oracle complexities for both strongly convex and non-strongly convex objectives. In addition, we extend ASVRG to mini-batch and non-smooth settings. We also empirically verify our theoretical results and show that the performance of ASVRG is comparable with, and sometimes even better than that of the state-of-the-art stochastic methods.

研究动机与目标

  • 开发一种更简单、更高效的加速随机方差缩减方法变体,用于复合凸优化。
  • 与 Katyusha 等现有方法相比,减少辅助变量和动量参数的数量,从而降低每次迭代的计算成本。
  • 在具有非光滑正则化项的有限和最小化背景下,实现强凸和非强凸问题的最佳已知 oracle 复杂度。
  • 将该方法扩展至小批量和非光滑设置,同时保持理论保证。
  • 通过实验验证理论结果,并展示其在性能上与当前最先进随机优化方法具有竞争力。

提出的方法

  • 提出一种新颖的动量加速机制,仅使用一个额外变量和一个动量参数,简化了更新结构。
  • 通过引入结合过去全梯度和随机梯度的动量项的方差缩减梯度估计器,对 SVRG 框架进行改进。
  • 采用两层循环结构:外层循环在快照点计算全梯度,内层循环使用有偏但方差缩减的梯度估计器执行近端更新。
  • 通过李雅普诺夫函数分析推导收敛速率,证明了强凸问题下的线性收敛性,以及非强凸情况下的改进收敛速率。
  • 通过调整采样策略并利用集中不等式(引理 E.1)控制梯度方差界,将方法扩展至小批量设置。
  • 引入参数化步长和动量方案,实现与问题条件数和数据规模最优的 oracle 复杂度缩放。

实验结果

研究问题

  • RQ1能否设计一种更简单的基于动量的加速方案用于近端 SVRG,同时保持最优收敛速率?
  • RQ2在加速 SVRG 中减少辅助变量和动量参数的数量,是否能在不牺牲收敛速度的前提下降低每次迭代的复杂度?
  • RQ3所提方法能否在有限和最小化问题中,对强凸和非强凸问题均实现最佳已知的 oracle 复杂度?
  • RQ4ASVRG 的小批量扩展与现有方法相比,如何影响收敛性和实际性能?
  • RQ5ASVRG 的实验性能是否与当前最先进随机优化算法(如 Katyusha)相当或更优?

主要发现

  • ASVRG 在强凸问题中实现了最佳已知的 oracle 复杂度 O((n + √(nL/μ)) log(1/ε)),在对数因子范围内达到理论下界。
  • 对于非强凸问题,ASVRG 达到了 O(1/t²) 的收敛速率,与 FISTA 等加速确定性方法的最优速率一致。
  • 该方法仅需一个额外变量和一个动量参数,与使用多个辅助变量的 Katyusha 相比,显著降低了每次迭代的复杂度。
  • 实验结果表明,ASVRG 在各种机器学习任务中表现与或优于当前最先进方法(如 Katyusha 和 Prox-SVRG)。
  • ASVRG 的小批量扩展保持了理论收敛保证,并且在较大批量下表现出更好的可扩展性,这得到了引理 E.1 中方差界的支撑。
  • 理论分析证实,ASVRG 中的动量机制能有效降低梯度方差并加速收敛,尤其在病态条件问题中表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。