QUICK REVIEW

[论文解读] A Proximal Stochastic Gradient Method with Progressive Variance Reduction

Lin Xiao, Tong Zhang|arXiv (Cornell University)|Mar 19, 2014

Stochastic Gradient Optimization Techniques参考文献 23被引用 26

一句话总结

本文提出了一种带有渐进方差减少的近端随机梯度方法（Prox-SVRG），用于求解大规模正则化经验风险最小化问题。通过采用多阶段方案逐步降低梯度方差，该方法在每次迭代的计算成本与标准随机梯度方法相当的情况下，实现了对最优解的几何收敛，整体复杂度显著优于近端全梯度方法和标准近端随机梯度方法。

ABSTRACT

We consider the problem of minimizing the sum of two convex functions: one is the average of a large number of smooth component functions, and the other is a general convex function that admits a simple proximal mapping. We assume the whole objective function is strongly convex. Such problems often arise in machine learning, known as regularized empirical risk minimization. We propose and analyze a new proximal stochastic gradient method, which uses a multi-stage scheme to progressively reduce the variance of the stochastic gradient. While each iteration of this algorithm has similar cost as the classical stochastic gradient method (or incremental gradient method), we show that the expected objective value converges to the optimum at a geometric rate. The overall complexity of this method is much lower than both the proximal full gradient method and the standard proximal stochastic gradient method.

研究动机与目标

为解决标准近端随机梯度方法因随机梯度方差过高而导致收敛缓慢的问题。
开发一种在保持低每次迭代成本的同时实现几何收敛速率的方法。
通过近端映射将方差减少技术扩展至具有非光滑正则化项的问题。
提供复杂度分析，表明其性能优于近端全梯度方法和标准近端随机梯度方法。
引入加权采样策略，以在分量函数平滑性不同时提升性能。

提出的方法

提出一种多阶段算法，通过周期性地使用全梯度的快照，逐步降低随机梯度的方差。
采用近端更新规则：$ x_k = \mathrm{prox}_{\eta_k R}(x_{k-1} - \eta_k \nabla f_{i_k}(x_{k-1})) $，将随机梯度步骤与近端映射结合，以处理非光滑正则化项。
通过维护前一轮完整遍历中梯度的运行平均值，采用控制变量子技术，降低随机梯度估计的方差。
引入加权采样方案，以在分量函数具有不同平滑参数 $ L_i $ 时提升收敛性能。
采用递减步长 $ \eta_k $，并确保 $ \eta_k \leq 1/L $，以保证稳定性和收敛性。
利用目标函数的整体强凸性分析收敛性，并推导出期望意义下的几何收敛速率。

实验结果

研究问题

RQ1是否可以通过渐进减少随机梯度方差，在不增加每次迭代成本的前提下实现几何收敛？
RQ2与近端全梯度方法和标准近端随机梯度方法相比，该方法的复杂度如何？
RQ3当分量函数具有异质平滑性时，加权采样能否改善收敛性能？
RQ4在强凸性和Lipschitz梯度假设下，该方法的理论收敛速率是多少？
RQ5该方法是否在保持低每次迭代计算成本的同时，实现更快的全局收敛？

主要发现

所提出的 Prox-SVRG 方法在期望意义下实现了几何（线性）收敛速率，而标准近端随机梯度方法仅能达到次线性收敛速率。
Prox-SVRG 的整体迭代复杂度显著低于近端全梯度方法和标准近端随机梯度方法。
在有利情况下，该方法的复杂度与 SDCA 和 SAG 相当，但可应用于更广泛的问题类别，且避免了存储每个分量的梯度。
通过加权采样，该方法在分量函数平滑性异质的问题中实现了更优的复杂度上界。
收敛速率为几何级，误差按 $ \left(\frac{1 - \eta \mu_F}{1 + \eta \mu_R}\right)^k $ 减少，其中 $ \mu_F $ 和 $ \mu_R $ 分别为 $ F $ 和 $ R $ 的强凸性参数。
该方法保持了低每次迭代成本——与标准随机梯度方法相当——同时实现了更优的全局收敛性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。