Skip to main content
QUICK REVIEW

[论文解读] Stochastic Recursive Variance-Reduced Cubic Regularization Methods.

Dongruo Zhou, Quanquan Gu|arXiv (Cornell University)|Jan 1, 2019
Stochastic Gradient Optimization Techniques被引用 2
一句话总结

该论文提出SRVRC,一种随机递归方差缩减的立方正则化方法,可改进非凸有限和优化中寻找$(\epsilon, \sqrt{\epsilon})$-近似局部极小值的梯度与海森矩阵复杂度。此外,该文还引入SRVRC$_{\text{free}}$,一种仅依赖随机梯度与海森-向量乘积的无海森矩阵变体,实现$\tilde{O}(dn\epsilon^{-2} \land d\epsilon^{-3})$的运行时间复杂度,优于Tripuraneni等人(2018)等先前方法。

ABSTRACT

Stochastic Variance-Reduced Cubic regularization (SVRC) algorithms have received increasing attention due to its improved gradient/Hessian complexities (i.e., number of queries to stochastic gradient/Hessian oracles) to find local minima for nonconvex finite-sum optimization. However, it is unclear whether existing SVRC algorithms can be further improved. Moreover, the semi-stochastic Hessian estimator adopted in existing SVRC algorithms prevents the use of Hessian-vector product-based fast cubic subproblem solvers, which makes SVRC algorithms computationally intractable for high-dimensional problems. In this paper, we first present a Stochastic Recursive Variance-Reduced Cubic regularization method (SRVRC) using a recursively updated semi-stochastic gradient and Hessian estimators. It enjoys improved gradient and Hessian complexities to find an $(\epsilon, \sqrt{\epsilon})$-approximate local minimum, and outperforms the state-of-the-art SVRC algorithms. Built upon SRVRC, we further propose a Hessian-free SRVRC algorithm, namely SRVRC$_{ ext{free}}$, which only requires stochastic gradient and Hessian-vector product computations, and achieves $ ilde O(dn\epsilon^{-2} \land d\epsilon^{-3})$ runtime complexity, where $n$ is the number of component functions in the finite-sum structure, $d$ is the problem dimension, and $\epsilon$ is the optimization precision. This outperforms the best-known runtime complexity $ ilde O(d\epsilon^{-3.5})$ achieved by stochastic cubic regularization algorithm proposed in Tripuraneni et al. 2018.

研究动机与目标

  • 解决现有随机方差缩减立方正则化(SVRC)算法在计算效率与可扩展性方面的局限性。
  • 克服先前SVRC方法中半随机海森矩阵估计器导致的高维问题计算不可行性。
  • 设计梯度与海森矩阵的递归估计策略,以降低Oracle复杂度并提升收敛速率。
  • 设计仅依赖随机梯度与海森-向量乘积的无海森矩阵变体,以增强高维环境下的实用性。
  • 实现相比Tripuraneni等人(2018)最优$\tilde{O}(d\epsilon^{-3.5})$结果的改进运行时间复杂度。

提出的方法

  • 提出SRVRC,一种使用递归更新的半随机梯度与海森矩阵估计器的随机递归方差缩减立方正则化方法。
  • 通过递归更新降低梯度与海森矩阵估计的方差,从而在非凸有限和问题中实现更优的收敛特性。
  • 引入SRVRC$_{\text{free}}$,一种用海森-向量乘积操作替代完整海森矩阵计算的无海森矩阵变体。
  • 通过避免完整海森矩阵的需要,利用快速立方子问题求解器,实现高维问题的可扩展性。
  • 设计算法以保持较低的梯度与海森矩阵Oracle复杂度,同时确保收敛至$(\epsilon, \sqrt{\epsilon})$-近似局部极小值。
  • 通过结合递归方差缩减与海森-向量乘积访问,实现$\tilde{O}(dn\epsilon^{-2} \land d\epsilon^{-3})$的运行时间复杂度。

实验结果

研究问题

  • RQ1现有SVRC算法在梯度与海森矩阵Oracle复杂度方面是否可进一步改进?
  • RQ2能否避免使用半随机海森矩阵估计器,以在立方正则化方法中启用基于海森-向量乘积的快速求解器?
  • RQ3当仅能访问随机梯度与海森-向量乘积时,非凸有限和优化的可实现运行时间复杂度是多少?
  • RQ4递归方差缩减技术能否有效扩展至立方正则化框架,以提升收敛速率?
  • RQ5所提出的无海森矩阵方法在复杂度与实际可扩展性方面与最先进方法相比如何?

主要发现

  • SRVRC在寻找$(\epsilon, \sqrt{\epsilon})$-近似局部极小值方面,相比现有SVRC算法实现了更优的梯度与海森矩阵复杂度。
  • 所提出的SRVRC$_{\text{free}}$算法实现$\tilde{O}(dn\epsilon^{-2} \land d\epsilon^{-3})$的运行时间复杂度,优于Tripuraneni等人(2018)的最佳已知$\tilde{O}(d\epsilon^{-3.5})$复杂度。
  • 通过用海森-向量乘积替代完整海森矩阵计算,SRVRC$_{\text{free}}$在高维设置下实现了高效且可扩展的优化。
  • 对梯度与海森矩阵的递归估计有效降低了方差,从而在无需昂贵海森矩阵存储的情况下实现更快收敛。
  • 该方法在保持收敛至$(\epsilon, \sqrt{\epsilon})$-近似局部极小值的理论保证的同时,显著提升了计算效率。
  • 无海森矩阵变体表明,在随机立方正则化中,完整海森矩阵计算并非实现最先进复杂度的必要条件。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。