Skip to main content
QUICK REVIEW

[论文解读] Sub-sampled Newton Methods with Non-uniform Sampling

Peng Xu, Jiyan Yang|arXiv (Cornell University)|Jul 2, 2016
Sparse and Compressive Sensing Techniques参考文献 25被引用 69
一句话总结

本文提出了一种非均匀子采样牛顿方法(SSN),用于大规模凸优化问题,其中海森矩阵具有低秩结构。通过基于块范数平方和部分杠杆值分数的非均匀分布采样海森矩阵分量,该方法在每次迭代仅使用 O(d log d) 个样本的情况下,实现了线性-二次收敛,显著降低了计算成本,同时相比均匀采样方法,对病态条件具有更强的鲁棒性。

ABSTRACT

We consider the problem of finding the minimizer of a convex function $F: \mathbb R^d ightarrow \mathbb R$ of the form $F(w) := \sum_{i=1}^n f_i(w) + R(w)$ where a low-rank factorization of $ abla^2 f_i(w)$ is readily available. We consider the regime where $n \gg d$. As second-order methods prove to be effective in finding the minimizer to a high-precision, in this work, we propose randomized Newton-type algorithms that exploit extit{non-uniform} sub-sampling of $\{ abla^2 f_i(w)\}_{i=1}^{n}$, as well as inexact updates, as means to reduce the computational complexity. Two non-uniform sampling distributions based on {\it block norm squares} and {\it block partial leverage scores} are considered in order to capture important terms among $\{ abla^2 f_i(w)\}_{i=1}^{n}$. We show that at each iteration non-uniformly sampling at most $\mathcal O(d \log d)$ terms from $\{ abla^2 f_i(w)\}_{i=1}^{n}$ is sufficient to achieve a linear-quadratic convergence rate in $w$ when a suitable initial point is provided. In addition, we show that our algorithms achieve a lower computational complexity and exhibit more robustness and better dependence on problem specific quantities, such as the condition number, compared to similar existing methods, especially the ones based on uniform sampling. Finally, we empirically demonstrate that our methods are at least twice as fast as Newton's methods with ridge logistic regression on several real datasets.

研究动机与目标

  • 为解决在 n ≫ d 的大规模问题中牛顿法的高计算成本问题。
  • 通过用非均匀采样策略替代均匀采样,改进海森矩阵近似,以提升收敛的鲁棒性和效率。
  • 通过不精确更新和非均匀采样,实现每轮迭代复杂度降低的线性-二次收敛。
  • 在病态条件下,证明该方法优于均匀采样和一阶方法的性能。
  • 表明基于杠杆值分数和块范数的非均匀采样可实现对条件数更优的依赖关系,并降低计算开销。

提出的方法

  • 基于块范数平方和部分杠杆值分数,对海森矩阵分量 ∇²fᵢ(w) 使用非均匀采样分布,以优先选择具有影响力的项。
  • 通过采样项 Aᵢᵀ(w)Aᵢ(w) 的加权和构造近似海森矩阵,其中权重为采样分布的逆概率。
  • 通过使用子采样子海森矩阵近似求解牛顿步长,实现不精确更新,从而降低每轮迭代的计算成本。
  • 采用类似信赖域的更新策略并结合线搜索,以确保目标函数的充分下降。
  • 在迭代间复用杠杆值分数,避免在每一步都重新计算,从而降低计算开销。
  • 采用两阶段方法:初始阶段使用均匀采样以达到一个良好的初始点,随后切换为非均匀采样以实现快速收敛。

实验结果

研究问题

  • RQ1在大规模牛顿型方法中,对海森矩阵分量进行非均匀采样是否能提升收敛速度和鲁棒性?
  • RQ2哪些采样分布(如杠杆值分数、范数平方)能在最小样本量下实现最优收敛速率?
  • RQ3子采样子牛顿方法的计算复杂度如何随问题维度 d 和条件数 κ 变化?
  • RQ4与均匀采样相比,非均匀采样是否能降低对病态条件的敏感性?
  • RQ5使用子采样子海森矩阵的不精确更新是否能在降低每轮迭代成本的同时保持线性-二次收敛?

主要发现

  • 所提出的 SSN 方法结合非均匀采样,在采样 O(d log d) 个海森矩阵分量时,即使采用不精确更新,也能实现线性-二次收敛。
  • 基于部分杠杆值分数和块范数平方的非均匀采样优于均匀采样,尤其在高条件数的病态问题中表现更优。
  • 在 Adult、Forest 和 CT Slice 等真实数据集上,该方法在岭逻辑回归中的速度至少是标准牛顿法的两倍。
  • 该方法在不同条件数下均表现出鲁棒性能,而均匀采样在 κ 增大时性能显著下降。
  • 在迭代间复用杠杆值分数可降低计算成本,且不损害收敛质量。
  • 实验结果表明,该方法在解误差上达到 10⁻⁸ 相对误差的速度快于 LBFGS、GD 和 AGD,尤其在病态环境下表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。