QUICK REVIEW

[论文解读] Less than a Single Pass: Stochastically Controlled Stochastic Gradient Method

Lihua Lei, Michael I. Jordan|arXiv (Cornell University)|Sep 12, 2016

Stochastic Gradient Optimization Techniques参考文献 46被引用 18

一句话总结

本文提出了一种新型方差缩减优化方法——随机控制随机梯度（SCSG），该方法在低精度问题中可实现少于一次完整数据遍历的收敛。通过使用几何分布随机变量控制迭代次数与子采样梯度，SCSG将计算与通信成本降低至对数据集大小n的亚线性依赖，尤其在低精度场景下，其理论与实践表现均优于SGD。

ABSTRACT

We develop and analyze a procedure for gradient-based optimization that we refer to as stochastically controlled stochastic gradient (SCSG). As a member of the SVRG family of algorithms, SCSG makes use of gradient estimates at two scales, with the number of updates at the faster scale being governed by a geometric random variable. Unlike most existing algorithms in this family, both the computation cost and the communication cost of SCSG do not necessarily scale linearly with the sample size $n$; indeed, these costs are independent of $n$ when the target accuracy is low. An experimental evaluation on real datasets confirms the effectiveness of SCSG.

研究动机与目标

解决现有SVRG族方法在计算与通信成本上随数据集大小n线性增长的低效问题。
开发一种方法，实现在目标精度ε较低时，收敛所需的数据遍历次数少于一次。
通过引入几何分布随机变量对迭代次数进行随机控制，降低计算与通信成本对n的依赖。
提出一种新的问题难度度量H(f)，该度量在许多实际问题中具有有限且较小的上界，而SGD在这些情况下缺乏理论保证。
证明SCSG在收敛速率上与SGD相当，但常数项显著更优，尤其在低精度场景下表现更佳。

提出的方法

提出SCSG作为SVRG的一种变体，使用子采样全梯度估计代替完整数据集的梯度。
利用几何分布随机变量控制内层迭代次数，使算法以高概率提前终止。
采用双尺度梯度估计：从迷你批次中获取随机梯度，并利用子采样全梯度作为控制变量。
引入一种新的问题特定度量H(f)，用于刻画有限和优化问题的内在难度。
设计算法使得当目标精度ε较低时，计算与通信成本均与n无关。
理论分析表明，期望的梯度评估次数为O((H(f)/(με) ∧ n + κ) log(Δf/ε))，其中H(f)替代了SGD中使用的统一梯度范数上界。

实验结果

研究问题

RQ1能否设计一种方差缩减的随机优化方法，在低精度问题中实现少于一次完整数据遍历的收敛？
RQ2在有限和优化中，如何将通信与计算成本降低至对n的亚线性依赖？
RQ3能否提出一种新问题度量，替代SGD中使用的统一梯度范数上界，以提供有限且更紧的收敛保证？
RQ4对迭代次数引入随机控制机制，是否能带来优化算法在理论与实践性能上的提升？
RQ5新难度度量H(f)与现有度量相比，在捕捉有限和问题内在复杂性方面表现如何？

主要发现

当目标精度ε较低时，SCSG可在少于一次完整数据遍历中实现收敛，特别适用于大规模问题。
SCSG的期望计算成本为O((H(f)/(με) ∧ n + κ) log(Δf/ε))，在ε较低时对n呈亚线性依赖，优于标准SVRG或SGD。
该算法的收敛速率依赖于H(f)，一种新的有限度量，其在许多实际问题中（如最小二乘、逻辑回归）为O(1)，而SGD中的统一梯度范数上界可能为无穷大。
对于多分类逻辑回归，论文证明H(f) ≤ (2/n)∑‖ai‖²，表明在标准假设下其保持有界且较小。
在真实数据集上的实证结果表明，SCSG在收敛速度与通信效率方面均优于SGD及其他SVRG变体。
理论分析表明，SCSG在低精度场景下从不劣于SGD，且由于H(f)度量的存在，可实现显著更优的常数项。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。