Skip to main content
QUICK REVIEW

[论文解读] Sub-Sampled Newton Methods II: Local Convergence Rates

Farbod Roosta-Khorasani, Michael W. Mahoney|arXiv (Cornell University)|Jan 18, 2016
Sparse and Compressive Sensing Techniques参考文献 53被引用 60
一句话总结

本文分析了大规模优化中的子采样牛顿法,提出通过子采样海森矩阵和/或梯度来降低计算成本,同时保持局部收敛性。通过利用随机矩阵集中不等式和近似矩阵乘法,建立了局部Q线性和Q超线性收敛速率,且收敛性与问题特定的条件数无关。

ABSTRACT

Many data-fitting applications require the solution of an optimization problem involving a sum of large number of functions of high dimensional parameter. Here, we consider the problem of minimizing a sum of $n$ functions over a convex constraint set $\mathcal{X} \subseteq \mathbb{R}^{p}$ where both $n$ and $p$ are large. In such problems, sub-sampling as a way to reduce $n$ can offer great amount of computational efficiency. Within the context of second order methods, we first give quantitative local convergence results for variants of Newton's method where the Hessian is uniformly sub-sampled. Using random matrix concentration inequalities, one can sub-sample in a way that the curvature information is preserved. Using such sub-sampling strategy, we establish locally Q-linear and Q-superlinear convergence rates. We also give additional convergence results for when the sub-sampled Hessian is regularized by modifying its spectrum or Levenberg-type regularization. Finally, in addition to Hessian sub-sampling, we consider sub-sampling the gradient as way to further reduce the computational complexity per iteration. We use approximate matrix multiplication results from randomized numerical linear algebra (RandNLA) to obtain the proper sampling strategy and we establish locally R-linear convergence rates. In such a setting, we also show that a very aggressive sample size increase results in a R-superlinearly convergent algorithm. While the sample size depends on the condition number of the problem, our convergence rates are problem-independent, i.e., they do not depend on the quantities related to the problem. Hence, our analysis here can be used to complement the results of our basic framework from the companion paper, [38], by exploring algorithmic trade-offs that are important in practice.

研究动机与目标

  • 开发适用于高维参数和大量数据点的大规模问题的高效二阶优化方法。
  • 分析通过随机子采样近似海森矩阵的子采样牛顿法的局部收敛行为。
  • 研究正则化对子采样子海森矩阵的影响及其对收敛速率的作用。
  • 将分析扩展到完全随机的变体,其中梯度和海森矩阵均被子采样。
  • 提供与问题特定条件数无关的收敛保证,从而增强在大数据问题中的广泛适用性。

提出的方法

  • 使用海森矩阵的均匀子采样以降低计算成本,同时通过随机矩阵集中不等式保留曲率信息。
  • 应用随机数值线性代数(RandNLA)中的近似矩阵乘法技术,推导海森矩阵和梯度子采样的最优采样策略。
  • 引入Levenberg型(岭)正则化和谱修改,以稳定早期迭代,理论证明其在后期阶段的有限效用。
  • 建立误差递推关系,表现出复合行为:远离最优解时主导为二次项,接近解时过渡为线性项。
  • 在每次迭代中精确求解子问题,以确保理论收敛保证,尽管这被指出是计算瓶颈。
  • 分析海森矩阵和梯度子采样的独立与同时采样策略,表明逐步增加样本大小可实现R超线性收敛。

实验结果

研究问题

  • RQ1在何种条件下,海森矩阵的子采样能保持牛顿法的局部收敛性质?
  • RQ2对子采样子海森矩阵进行正则化如何影响收敛速率,其在何时具有优势?
  • RQ3能否同时对海森矩阵和梯度进行子采样,同时保持局部收敛保证?
  • RQ4何种采样策略可确保完全随机牛顿法中实现局部R线性或R超线性收敛?
  • RQ5收敛速率如何依赖于问题特定参数(如条件数)?能否使其与问题无关?

主要发现

  • 采用完整梯度与均匀子采样子海森矩阵的子采样牛顿法,实现局部Q线性收敛,误差递推关系在迭代接近最优解时由二次主导过渡为线性主导。
  • 通过逐步增加海森子样本大小,该方法实现局部Q超线性收敛,表现出更优的渐近行为。
  • 对子采样子海森矩阵进行正则化(通过谱修改或Levenberg型方法)可改善早期阶段收敛,但在接近解时表现次优,此时无正则化的子采样表现更佳。
  • 当同时对海森矩阵和梯度进行子采样时,算法实现局部R线性收敛,更激进的样本大小增长可实现R超线性收敛。
  • 所有收敛速率均与问题无关,即不依赖于条件数或其他问题特定量,从而增强泛化能力。
  • 该分析为实际算法权衡提供了理论基础,可在不牺牲收敛保证的前提下平衡计算成本与收敛速度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。