Skip to main content
QUICK REVIEW

[论文解读] Stochastic Variance-Reduced Cubic Regularized Newton Method

Dongruo Zhou, Pan Xu|arXiv (Cornell University)|Feb 13, 2018
Sparse and Compressive Sensing Techniques参考文献 35被引用 23
一句话总结

该论文提出了一种随机方差减少的立方正则化牛顿法(SVR Cubic),通过引入新颖的半随机梯度与海森矩阵估计器,显著提升了非凸优化中的二阶预言机复杂度。该方法在 O(n + n⁴/⁵/ϵ³/²) 次二阶预言机调用内达到 (ϵ, √ϵ)-近似局部最小值,优于现有立方正则化及子采样变体,在高精度场景下表现更优。

ABSTRACT

We propose a stochastic variance-reduced cubic regularized Newton method for non-convex optimization. At the core of our algorithm is a novel semi-stochastic gradient along with a semi-stochastic Hessian, which are specifically designed for cubic regularization method. We show that our algorithm is guaranteed to converge to an $(ε,\sqrtε)$-approximately local minimum within $ ilde{O}(n^{4/5}/ε^{3/2})$ second-order oracle calls, which outperforms the state-of-the-art cubic regularization algorithms including subsampled cubic regularization. Our work also sheds light on the application of variance reduction technique to high-order non-convex optimization methods. Thorough experiments on various non-convex optimization problems support our theory.

研究动机与目标

  • 解决在非凸优化中立方正则化方法下完整海森矩阵与梯度计算带来的高计算成本问题。
  • 改进立方正则化方法的二阶预言机复杂度,尤其在高精度设置下。
  • 将方差减少技术应用于高阶非凸优化,特别是立方正则化方法。
  • 在立方子问题求解不精确的前提下,建立收敛性保证,同时保持复杂度界限。

提出的方法

  • 为立方正则化子问题设计了一种新颖的半随机梯度与海森矩阵估计器。
  • 采用方差减少技术(受 Johnson & Zhang, 2013 启发)以降低随机海森矩阵与梯度估计的方差。
  • 使用小批量采样策略计算近似海森矩阵与梯度,从而减少完整海森矩阵的计算次数。
  • 设计双层结构:外层使用完整梯度与海森矩阵估计,内层使用方差减少的随机估计。
  • 在每次迭代中应用类似 Lanczos 的方法,近似求解立方子问题。
  • 理论上证明了该方法可收敛至 (ϵ, √ϵ)-近似局部最小值,并实现了改进的预言机复杂度。

实验结果

研究问题

  • RQ1方差减少技术能否有效应用于如立方正则化等二阶非凸优化方法?
  • RQ2能否在不牺牲收敛速度的前提下,降低立方正则化方法的二阶预言机复杂度?
  • RQ3当立方子问题被不精确求解时,所提方法是否仍能保持收敛性保证?
  • RQ4与子采样和标准立方正则化方法相比,该算法在预言机复杂度与运行时间方面表现如何?

主要发现

  • 所提 SVR Cubic 方法通过 O(n + n⁴/⁵/ϵ³/²) 次二阶预言机调用,达到 (ϵ, √ϵ)-近似局部最小值,优于标准立方正则化方法的 O(n/ϵ³/²) 复杂度。
  • 与原始立方正则化方法相比,该算法将完整海森矩阵与梯度计算次数减少了 Ω(n¹/⁵) 的因子。
  • 即使立方子问题被不精确求解,只要满足充分条件,该方法仍能保持相同的收敛速率与预言机复杂度。
  • 在 a9a、covtype 与 ijcnn1 数据集上的实验结果表明,SVR Cubic 在收敛速度与运行时间方面优于 Adaptive Cubic、Subsampled Cubic、Stochastic Cubic 与 Gradient Cubic,尤其在高精度场景下表现更优。
  • 在某些情况下(如 covtype),该算法的迭代轮次数略多于 Adaptive Cubic,但 CPU 时间更短,表明其每轮迭代效率更高。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。