[论文解读] Convergence rates of sub-sampled Newton methods
本文提出 NewSamp,一种子采样牛顿方法,结合特征值阈值化与随机采样,实现在最小值附近的二次收敛以及后期阶段的线性收敛,每次迭代的计算成本为 O(np + |S|p²)。该方法无需步长调优即可实现鲁棒性能,并通过用更温和的谱比(λ*_{r+1}/λ*_{p})替代条件数,改善收敛性。
We consider the problem of minimizing a sum of $n$ functions over a convex parameter set $\mathcal{C} \subset \mathbb{R}^p$ where $n\gg p\gg 1$. In this regime, algorithms which utilize sub-sampling techniques are known to be effective. In this paper, we use sub-sampling techniques together with low-rank approximation to design a new randomized batch algorithm which possesses comparable convergence rate to Newton's method, yet has much smaller per-iteration cost. The proposed algorithm is robust in terms of starting point and step size, and enjoys a composite convergence rate, namely, quadratic convergence at start and linear convergence when the iterate is close to the minimizer. We develop its theoretical analysis which also allows us to select near-optimal algorithm parameters. Our theoretical results can be used to obtain convergence rates of previously proposed sub-sampling based algorithms as well. We demonstrate how our results apply to well-known machine learning problems. Lastly, we evaluate the performance of our algorithm on several datasets under various scenarios.
研究动机与目标
- 解决大规模机器学习中 n ≫ p 时牛顿法的高每次迭代成本问题。
- 通过应用特征值阈值化,克服子采样海森矩阵近似在平坦(低曲率)方向上的不稳定性。
- 设计一种随机批量算法,保留二阶收敛特性的同时降低计算成本。
- 为子采样方案建立理论收敛速率,并提供最优参数选择的指导。
- 在真实数据集上展示该方法的有效性,并与现有优化算法进行比较。
提出的方法
- 使用子采样近似海森矩阵,通过更小的数据点集 S 降低每次迭代成本至 O(np + |S|p²)。
- 应用特征值阈值化:将第 r 个以下的所有特征值设为等于第 (r+1) 个特征值,从而在平坦方向上稳定海森矩阵近似。
- 通过低秩截断构造缩放矩阵 Q^t 作为正则化逆海森矩阵近似,确保数值稳定性。
- 使用固定步长 η_t = 1,避免线搜索或参数调优。
- 将子采样子海森矩阵与凸集 C ⊂ ℝ^p 上的投影牛顿迭代相结合。
- 利用随机矩阵理论和集中不等式(如矩阵切尔诺夫界)推导海森矩阵近似误差的概率界。
实验结果
研究问题
- RQ1子采样子海森矩阵近似是否可通过稳定化实现早期(二次)和后期(线性)阶段的可靠收敛?
- RQ2带有特征值阈值化的子采样子牛顿方法的理论收敛速率是什么?
- RQ3子样本大小 |S| 和截断秩 r 的选择如何影响收敛性和鲁棒性?
- RQ4该方法是否可在无需线搜索或步长调优的情况下实现二次收敛?
- RQ5海森矩阵的条件数如何影响收敛性?是否可通过谱截断加以缓解?
主要发现
- NewSamp 实现了复合收敛速率:在最小值附近为二次收敛,后期阶段为线性收敛,且收敛系数具有显式界。
- 渐近线性收敛系数满足 lim_{t→∞} ξ₁^t = 1 - (λ*_{p}/λ*_{r+1}) + δ,其中 δ 很小,从而以更良态的 (λ*_{r+1}/λ*_{p}) 替代了病态的 (λ*₁/λ*_{p})。
- 该方法对初始条件和步长具有鲁棒性,使用 η_t = 1 时无需线搜索即可实现收敛。
- 每次迭代成本为 O(np + |S|p²),显著低于牛顿法的 O(np² + p³),尤其当 |S| ≪ n 时优势明显。
- 理论分析可通过对参数调整,推导出先前提出的子采样算法的收敛速率。
- 在四个数据集上的实证评估表明,NewSamp 在收敛速度和鲁棒性方面优于标准梯度下降和拟牛顿方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。