[论文解读] Sub-Sampled Newton Methods I: Globally Convergent Algorithms
该论文提出了一种全局收敛的子采样牛顿方法,用于大规模优化,通过均匀子采样近似海森矩阵,同时使用完整梯度,确保从任意初始点出发均能收敛。该方法建立了非渐近、定量的收敛边界,其依赖于条件数,并且即使在求解牛顿系统时存在不精确性,也能保证全局收敛,精度容差在 $\mathcal{O}(1/\sqrt{\tilde{\kappa}})$ 量级时可保证快速收敛。
Large scale optimization problems are ubiquitous in machine learning and data analysis and there is a plethora of algorithms for solving such problems. Many of these algorithms employ sub-sampling, as a way to either speed up the computations and/or to implicitly implement a form of statistical regularization. In this paper, we consider second-order iterative optimization algorithms and we provide bounds on the convergence of the variants of Newton's method that incorporate uniform sub-sampling as a means to estimate the gradient and/or Hessian. Our bounds are non-asymptotic and quantitative. Our algorithms are global and are guaranteed to converge from any initial iterate. Using random matrix concentration inequalities, one can sub-sample the Hessian to preserve the curvature information. Our first algorithm incorporates Hessian sub-sampling while using the full gradient. We also give additional convergence results for when the sub-sampled Hessian is regularized by modifying its spectrum or ridge-type regularization. Next, in addition to Hessian sub-sampling, we also consider sub-sampling the gradient as a way to further reduce the computational complexity per iteration. We use approximate matrix multiplication results from randomized numerical linear algebra to obtain the proper sampling strategy. In all these algorithms, computing the update boils down to solving a large scale linear system, which can be computationally expensive. As a remedy, for all of our algorithms, we also give global convergence results for the case of inexact updates where such linear system is solved only approximately. This paper has a more advanced companion paper, [42], in which we demonstrate that, by doing a finer-grained analysis, we can get problem-independent bounds for local convergence of these algorithms and explore trade-offs to improve upon the basic results of the present paper.
研究动机与目标
- 开发适用于全海森矩阵计算不可行的大规模问题的全局收敛二阶优化算法。
- 为使用海森矩阵均匀子采样和完整梯度的子采样牛顿方法提供非渐近收敛保证。
- 分析牛顿系统不精确求解对收敛性的影响,并给出明确的容差要求。
- 将框架扩展至完全随机化的变体,采用子采样梯度和海森矩阵,并使用基于 RandNLA 的采样策略。
- 通过结合配套工作(SSN2)为条件数无关的局部收敛奠定基础,该工作分析了局部收敛速率。
提出的方法
- 使用均匀子采样估计海森矩阵,同时计算完整梯度,通过随机矩阵集中不等式确保下降方向。
- 在早期迭代中对子采样海森矩阵应用谱正则化或岭型正则化以改善条件,接近收敛时恢复为原始子采样海森矩阵。
- 利用随机数值线性代数(RandNLA)中的近似矩阵乘法结果,推导出梯度和海森矩阵子采样的最优采样策略。
- 近似求解牛顿系统,当精度容差在 $\mathcal{O}(1/\sqrt{\tilde{\kappa}})$ 量级时,提供收敛保证,其中 $\tilde{\kappa}$ 为采样条件数。
- 使用 Armijo 线搜索规则,自然步长为 $\alpha_k = 1$,以确保全局收敛,尤其是在迭代点接近最优解时。
- 为精确和不精确更新方案均建立了全局收敛性,理论边界适用于有限维空间和有限次迭代。
实验结果
研究问题
- RQ1在牛顿方法中,子采样海森矩阵近似是否能保证从任意初始迭代点出发的全局收敛?
- RQ2为确保具有非渐近边界的收敛性,海森矩阵和梯度的采样规模应为多大?
- RQ3牛顿系统不精确求解如何影响收敛性?何种精度容差可保证快速收敛?
- RQ4对子采样海森矩阵施加正则化是否能改善早期收敛性而不损害全局收敛性?
- RQ5子采样牛顿方法的全局收敛特性与局部收敛速率之间如何相互作用,特别是与条件数依赖性的关系如何?
主要发现
- 采用子采样海森矩阵和完整梯度的算法实现了非渐近边界依赖于条件数的全局线性收敛。
- 在使用完整梯度的同时对海森矩阵进行子采样,只要样本大小相对于条件数足够大,即可以高概率确保下降方向。
- 引入岭型或谱正则化可改善早期收敛,但应在接近最优解时移除以保持精度。
- 当梯度和海森矩阵均被子采样时,通过基于 RandNLA 的采样策略可维持全局收敛,收敛速率依赖于采样质量。
- 对于不精确更新,若解的精度在 $\mathcal{O}(1/\sqrt{\tilde{\kappa}})$ 以内,即可保证收敛,其中 $\tilde{\kappa}$ 为采样条件数。
- 本论文的全局收敛结果与配套论文 SSN2 [40] 中的局部收敛性分析相结合,可实现条件数无关的局部收敛速率,趋近于完整牛顿方法的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。