[论文解读] On Adaptive Cubic Regularized Newton's Methods for Convex Optimization via Random Sampling
该论文提出了一种用于大规模凸优化的自适应立方正则化牛顿方法,通过均匀或非均匀子采样来近似海森矩阵。其标准变体达到 $O(\epsilon^{-1/2})$ 的全局迭代复杂度,加速变体达到 $O(\epsilon^{-1/3})$,与完整海森矩阵方法保持一致,同时在逻辑回归任务中表现出实际加速效果。
In this paper, we consider an unconstrained optimization model where the objective is a sum of a large number of possibly nonconvex functions, though overall the objective is assumed to be smooth and convex. Our bid to solving such model uses the framework of cubic regularization of Newton's method.As well known, the crux in cubic regularization is its utilization of the Hessian information, which may be computationally expensive for large-scale problems. To tackle this, we resort to approximating the Hessian matrix via sub-sampling. In particular, we propose to compute an approximated Hessian matrix by either uniformly or non-uniformly sub-sampling the components of the objective. Based upon sub-sampling, we develop both standard and accelerated adaptive cubic regularization approaches and provide theoretical guarantees on global iteration complexity. We show that the standard and accelerated sub-sampled cubic regularization methods achieve iteration complexity in the order of $O(\epsilon^{-1/2})$ and $O(\epsilon^{-1/3})$ respectively, which match those of the original standard and accelerated cubic regularization methods \cite{Cartis-2012-Evaluation, Jiang-2017-Unified} using the full Hessian information. The performances of the proposed methods on regularized logistic regression problems show a clear effect of acceleration in terms of epochs on several real data sets.
研究动机与目标
- 解决大规模问题中立方正则化牛顿方法海森矩阵计算的高成本问题。
- 开发基于目标函数分量子采样的高效海森矩阵近似技术。
- 设计兼具标准与加速版本的自适应立方正则化方法,同时保持理论收敛保证。
- 在降低计算开销的同时,实现与完整海森矩阵方法相当的迭代复杂度。
- 在真实世界的正则化逻辑回归问题上,实证验证所提方法的有效性与加速性能。
提出的方法
- 通过目标函数求和结构中分量的均匀或非均匀子采样来近似海森矩阵。
- 采用自适应立方正则化框架,以确保每次迭代中目标函数的充分下降。
- 提出子采样立方正则化方法的标准与加速两种变体。
- 基于子采样海森矩阵近似所导出的局部曲率估计,采用自适应步长选择策略。
- 通过理论分析,在光滑性与凸性假设下推导出全局迭代复杂度上界。
- 利用随机采样技术降低海森矩阵计算成本,同时保持收敛速率。
实验结果
研究问题
- RQ1在凸优化中,海森矩阵分量的子采样能否保持完整海森矩阵立方正则化方法的收敛复杂度?
- RQ2与均匀采样相比,非均匀采样在收敛速度与稳定性方面表现如何?
- RQ3子采样立方正则化方法的加速变体能否达到与其完整海森矩阵对应版本相同的迭代复杂度?
- RQ4在真实世界机器学习问题中,所提方法在训练轮数与收敛速度方面带来了多大的实际性能提升?
- RQ5当仅使用海森矩阵分量的子集时,自适应立方正则化框架是否仍保持鲁棒性?
主要发现
- 标准子采样立方正则化方法实现了 $O(\epsilon^{-1/2})$ 的迭代复杂度,与完整海森矩阵方法一致。
- 加速子采样立方正则化方法达到 $O(\epsilon^{-1/3})$ 的迭代复杂度,与完整海森矩阵加速变体完全相同。
- 在正则化逻辑回归上的实证结果表明,与非加速版本相比,该方法在训练轮数上表现出明显的加速效果。
- 实践中,非均匀子采样相比均匀采样能更高效地促进收敛。
- 尽管仅使用海森矩阵分量的子集,所提方法仍保持理论收敛保证。
- 无论采用均匀还是非均匀采样策略,理论复杂度上界均得以保持。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。