[论文解读] Fast large-scale optimization by unifying stochastic gradient and quasi-Newton methods
本文提出了一种新型优化算法 Stochastic First-Order (SFO),通过为和结构目标函数中的每个子函数维护独立的海森矩阵近似,统一了随机梯度下降 (SGD) 和拟牛顿方法。通过将这些近似投影到低维、自适应子空间中,SFO 实现了快速收敛,且超参数调优极少,在包括深度神经网络和逻辑回归在内的多种机器学习任务上,性能优于 SGD 和无海森矩阵方法。
We present an algorithm for minimizing a sum of functions that combines the computational efficiency of stochastic gradient descent (SGD) with the second order curvature information leveraged by quasi-Newton methods. We unify these disparate approaches by maintaining an independent Hessian approximation for each contributing function in the sum. We maintain computational tractability and limit memory requirements even for high dimensional optimization problems by storing and manipulating these quadratic approximations in a shared, time evolving, low dimensional subspace. Each update step requires only a single contributing function or minibatch evaluation (as in SGD), and each step is scaled using an approximate inverse Hessian and little to no adjustment of hyperparameters is required (as is typical for quasi-Newton methods). This algorithm contrasts with earlier stochastic second order techniques that treat the Hessian of each contributing function as a noisy approximation to the full Hessian, rather than as a target for direct estimation. We experimentally demonstrate improved convergence on seven diverse optimization problems. The algorithm is released as open source Python and MATLAB packages.
研究动机与目标
- 通过结合随机梯度下降的效率与二阶曲率信息,解决全拟牛顿方法在大规模优化问题上的计算低效问题。
- 克服现有随机二阶方法的局限性,即把子函数海森矩阵视为全海森矩阵的噪声近似,而非直接估计的目标。
- 在保持快速收敛的同时,降低拟牛顿方法常见的超参数敏感性,通过自适应海森矩阵近似实现。
- 通过将海森矩阵近似投影到随时间演化的低维子空间,实现在高维设置下的可扩展、低内存优化。
提出的方法
- 该算法为每个子函数 $ f_i(\textbf{x}) $ 维护一个独立的二次近似 $ g_i^t(\textbf{x}) $,并使用 BFGS 更新基于梯度历史来优化这些近似。
- 优化过程分为两个交替步骤:(1) 最小化当前近似之和 $ G^{t-1}(\textbf{x}) = \sum_i g_i^{t-1}(\textbf{x}) $,(2) 使用新参数值 $ \textbf{x}^t $ 周围的二阶展开更新一个 $ g_i^t(\textbf{x}) $。
- 所有海森矩阵近似均存储和操作于由梯度和参数更新历史张成的共享低维子空间中,确保计算和内存的可行性。
- 该方法每步仅需一次子函数评估(如 SGD),但通过使用近似逆海森矩阵信息(如拟牛顿)来缩放步长,减少了对手动超参数调优的需求。
- 子空间随时间自适应更新,捕获主导曲率方向,而无需计算完整海森矩阵。
- 该算法设计为天然可并行化,支持对单个子函数近似的异步更新,并适用于在线或无限数据场景。
实验结果
研究问题
- RQ1能否在不承担完整海森矩阵计算成本的前提下,使随机优化方法有效利用二阶曲率信息?
- RQ2能否在共享的低维子空间中高效维护每个子函数的独立海森矩阵近似,以实现可扩展优化?
- RQ3将拟牛顿方法的步长自适应性与 SGD 的计算效率相结合,是否能在大规模问题上实现更快收敛?
- RQ4该方法能否减少或消除 SGD 和拟牛顿方法中常见的手动超参数调优需求?
主要发现
- 在 CURVES 数据集上训练的十二层神经网络中,SFO 的收敛速度优于无海森矩阵优化方法,有效数据遍历次数约为其十分之一。
- 在包括逻辑回归、伊辛模型和深度网络在内的七个多样化优化问题上,SFO 表现出一致优于基线方法的收敛性能。
- 该算法几乎无需超参数调优,通过数据本身提供的曲率信息自适应调整步长和方向。
- 低维子空间的使用即使在高维问题中也实现了内存和计算效率,保持了可扩展性。
- 该方法已作为开源 Python 和 MATLAB 包发布,支持在机器学习应用中的实际部署。
- 实证结果表明,SFO 在收敛速度和鲁棒性方面均优于标准 SGD 和拟牛顿方法,适用于广泛的任务。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。