[论文解读] A Variance Reduced Stochastic Newton Method
本文提出 Vite,一种方差减少的随机拟牛顿方法,可在使用固定步长的情况下,对光滑且强凸函数实现几何(线性)收敛。通过将方差减少技术整合到随机 BFGS 框架中,Vite 克服了随机 Hessian 近似带来的高方差问题,从而在收敛速度和稳定性方面优于现有的随机拟牛顿方法及方差减少的 SGD 方法。
Quasi-Newton methods are widely used in practise for convex loss minimization problems. These methods exhibit good empirical performance on a wide variety of tasks and enjoy super-linear convergence to the optimal solution. For large-scale learning problems, stochastic Quasi-Newton methods have been recently proposed. However, these typically only achieve sub-linear convergence rates and have not been shown to consistently perform well in practice since noisy Hessian approximations can exacerbate the effect of high-variance stochastic gradient estimates. In this work we propose Vite, a novel stochastic Quasi-Newton algorithm that uses an existing first-order technique to reduce this variance. Without exploiting the specific form of the approximate Hessian, we show that Vite reaches the optimum at a geometric rate with a constant step-size when dealing with smooth strongly convex functions. Empirically, we demonstrate improvements over existing stochastic Quasi-Newton and variance reduced stochastic gradient methods.
研究动机与目标
- 解决由于随机梯度和 Hessian 估计方差过高,导致随机拟牛顿方法收敛性差且不稳定的问题。
- 通过减少随机二阶方法中的梯度方差,提升大规模优化中的收敛速度和鲁棒性。
- 在不使用衰减步长的情况下,实现固定步长下的几何收敛,这是对现有随机 BFGS 方法的重大改进。
- 通过实证结果表明,将二阶信息与方差减少相结合,可在真实世界数据集上实现更优性能。
提出的方法
- Vite 采用受 SVRG 启发的多阶段方差减少方案,利用周期性更新的枢轴点来计算低方差的梯度估计。
- 将方差减少的梯度估计器应用于随机 BFGS 更新规则,同时保持对逆 Hessian 矩阵的递归近似。
- 该方法使用固定步长,且在标准光滑性和强凸性假设下,可证明其保证实现几何收敛。
- 通过维护一组历史梯度和 Hessian 近似值,降低曲率估计过程中的噪声。
- 利用 BFGS 更新规则构建拟牛顿 Hessian 近似,而无需显式计算或求逆完整 Hessian 矩阵。
- 理论分析表明,仅对梯度进行方差减少就足以实现几何收敛,即使不修改 Hessian 更新规则亦可。
实验结果
研究问题
- RQ1能否有效将方差减少应用于随机 BFGS,以在固定步长下实现几何收敛?
- RQ2将二阶信息与方差减少结合,是否能比一阶方差减少方法(如 SVRG)实现更快的收敛速度?
- RQ3所提出的方法在实际中是否能优于现有的随机拟牛顿方法(如 RES 和 oBFGS)?
- RQ4用于 Hessian 近似的辅助集合大小对收敛速度和稳定性有何影响?
- RQ5在随机拟牛顿方法中,是否可能在不使用衰减步长的情况下实现几何收敛?
主要发现
- Vite 在使用固定步长的情况下,对光滑且强凸函数实现了几何收敛,这是随机拟牛顿方法中的一个新成果。
- 实证结果表明,Vite 在多个真实世界数据集(包括 Cov、Adult 和 IJCNN)上的收敛速度均快于 SVRG 和 RES。
- 该方法在所有测试中均显著优于方差减少的 SGD 和随机 BFGS 变体,充分体现了结合二阶信息与方差减少的优势。
- 用于 Hessian 近似的辅助集合越小,性能越好,因为更大的集合会增加计算成本却无法提升收敛性能。
- Vite 在不同大小的辅助集合下均保持优异性能,而 RES 因计算开销增加导致性能随集合增大而下降。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。