QUICK REVIEW

[论文解读] A Stochastic Quasi-Newton Method for Large-Scale Optimization

Richard H. Byrd, Samantha Hansen|arXiv (Cornell University)|Jan 27, 2014

Stochastic Gradient Optimization Techniques参考文献 18被引用 46

一句话总结

本文提出了一种用于大规模优化的随机拟牛顿方法，通过定期使用子采样海森向量积来获取可靠的曲率信息，而非依赖于噪声较大的梯度差分，从而在随机梯度下降的基础上实现改进。该方法采用有限内存 BFGS 更新策略，结合稳定且可扩展的海森矩阵近似，相较于现有的随机拟牛顿方法，在机器学习问题上实现了更快的收敛速度和更优的性能表现。

ABSTRACT

The question of how to incorporate curvature information in stochastic approximation methods is challenging. The direct application of classical quasi- Newton updating techniques for deterministic optimization leads to noisy curvature estimates that have harmful effects on the robustness of the iteration. In this paper, we propose a stochastic quasi-Newton method that is efficient, robust and scalable. It employs the classical BFGS update formula in its limited memory form, and is based on the observation that it is beneficial to collect curvature information pointwise, and at regular intervals, through (sub-sampled) Hessian-vector products. This technique differs from the classical approach that would compute differences of gradients, and where controlling the quality of the curvature estimates can be difficult. We present numerical results on problems arising in machine learning that suggest that the proposed method shows much promise.

研究动机与目标

开发一种适用于大规模机器学习问题的可扩展、鲁棒的随机拟牛顿方法，其中全批量海森矩阵计算不可行。
解决由于依赖噪声较大的梯度差分而导致的随机拟牛顿方法中曲率估计不稳定的难题。
在随机逼近设置中高效引入二阶信息，同时避免产生高昂的计算成本。
通过分摊海森向量积的计算成本，在保持低每轮迭代开销的同时，确保对强凸函数的全局收敛性。
在大规模学习问题上，相较于现有的随机拟牛顿方法（如 oLBFGS），实现更快的收敛速度和更强的鲁棒性。

提出的方法

该方法采用有限内存 BFGS 更新公式，在每次迭代中以 $ O(n) $ 的操作量维护一个逆海森矩阵近似 $ H_k $。
曲率信息通过在固定间隔 $ L $ 进行子采样海森向量积 $ \nabla^2 F(w) v $ 来获取，而非在每次迭代中通过梯度差分获得。
海森向量积使用大小为 $ b_H $ 的小批量数据计算，确保曲率估计稳定且噪声可控。
算法采用递减步长 $ \alpha^k = \beta / k $，在标准凸性假设下可保证收敛。
通过在海森向量积计算中共享采样，避免了基于梯度差分的海森矩阵估计带来的不稳定性。
逆海森矩阵近似 $ H_k $ 仅每 $ L $ 次迭代更新一次，从而分摊海森向量积的计算成本，同时保持有效的曲率信息。

实验结果

研究问题

RQ1是否可以在不依赖噪声较大的梯度差分的前提下，可靠地提取随机优化中的曲率信息？
RQ2如何在随机环境下有效利用海森向量积，构建稳定且可扩展的拟牛顿方法？
RQ3通过海森向量积构建完整的海森矩阵近似，是否能带来比对角或无海森矩阵缩放更快的收敛速度？
RQ4海森向量积计算频率与曲率近似质量之间的最优权衡是什么？
RQ5所提方法是否能在保持低每轮迭代复杂度的同时，实现在随机设置下的全局收敛性？

主要发现

所提方法相较于 Robbins-Monro 的随机梯度下降方法实现了更快的收敛速度，表明曲率信息能显著提升优化性能。
数值实验表明，该方法在大规模机器学习问题上优于当前最先进的随机拟牛顿方法 oLBFGS。
通过定期使用海森向量积，可获得稳定的曲率估计，避免了基于梯度差分方法固有的噪声放大问题。
在标准假设下，该方法对强凸函数保持全局收敛性，收敛速度的提升归因于有效的海森矩阵近似。
通过采用适中的小批量大小 $ b_H $ 和间隔 $ L = 20 $，海森向量积的计算成本得以分摊，使该方法在大规模问题中具备实用性。
当强制满足条件 $ s_t^T y_t > 0 $ 时，该算法在非凸设置下依然有效，表明其具有更广泛的应用潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。