Skip to main content
QUICK REVIEW

[论文解读] Less than a Single Pass: Stochastically Controlled Stochastic Gradient Method

Lihua Lei, Michael I. Jordan|arXiv (Cornell University)|Sep 12, 2016
Stochastic Gradient Optimization Techniques参考文献 46被引用 18
一句话总结

本文提出了一种新型方差缩减优化方法——随机控制随机梯度(SCSG),该方法在低精度问题中可实现少于一次完整数据遍历的收敛。通过使用几何分布随机变量控制迭代次数与子采样梯度,SCSG将计算与通信成本降低至对数据集大小n的亚线性依赖,尤其在低精度场景下,其理论与实践表现均优于SGD。

ABSTRACT

We develop and analyze a procedure for gradient-based optimization that we refer to as stochastically controlled stochastic gradient (SCSG). As a member of the SVRG family of algorithms, SCSG makes use of gradient estimates at two scales, with the number of updates at the faster scale being governed by a geometric random variable. Unlike most existing algorithms in this family, both the computation cost and the communication cost of SCSG do not necessarily scale linearly with the sample size $n$; indeed, these costs are independent of $n$ when the target accuracy is low. An experimental evaluation on real datasets confirms the effectiveness of SCSG.

研究动机与目标

  • 解决现有SVRG族方法在计算与通信成本上随数据集大小n线性增长的低效问题。
  • 开发一种方法,实现在目标精度ε较低时,收敛所需的数据遍历次数少于一次。
  • 通过引入几何分布随机变量对迭代次数进行随机控制,降低计算与通信成本对n的依赖。
  • 提出一种新的问题难度度量H(f),该度量在许多实际问题中具有有限且较小的上界,而SGD在这些情况下缺乏理论保证。
  • 证明SCSG在收敛速率上与SGD相当,但常数项显著更优,尤其在低精度场景下表现更佳。

提出的方法

  • 提出SCSG作为SVRG的一种变体,使用子采样全梯度估计代替完整数据集的梯度。
  • 利用几何分布随机变量控制内层迭代次数,使算法以高概率提前终止。
  • 采用双尺度梯度估计:从迷你批次中获取随机梯度,并利用子采样全梯度作为控制变量。
  • 引入一种新的问题特定度量H(f),用于刻画有限和优化问题的内在难度。
  • 设计算法使得当目标精度ε较低时,计算与通信成本均与n无关。
  • 理论分析表明,期望的梯度评估次数为O((H(f)/(με) ∧ n + κ) log(Δf/ε)),其中H(f)替代了SGD中使用的统一梯度范数上界。

实验结果

研究问题

  • RQ1能否设计一种方差缩减的随机优化方法,在低精度问题中实现少于一次完整数据遍历的收敛?
  • RQ2在有限和优化中,如何将通信与计算成本降低至对n的亚线性依赖?
  • RQ3能否提出一种新问题度量,替代SGD中使用的统一梯度范数上界,以提供有限且更紧的收敛保证?
  • RQ4对迭代次数引入随机控制机制,是否能带来优化算法在理论与实践性能上的提升?
  • RQ5新难度度量H(f)与现有度量相比,在捕捉有限和问题内在复杂性方面表现如何?

主要发现

  • 当目标精度ε较低时,SCSG可在少于一次完整数据遍历中实现收敛,特别适用于大规模问题。
  • SCSG的期望计算成本为O((H(f)/(με) ∧ n + κ) log(Δf/ε)),在ε较低时对n呈亚线性依赖,优于标准SVRG或SGD。
  • 该算法的收敛速率依赖于H(f),一种新的有限度量,其在许多实际问题中(如最小二乘、逻辑回归)为O(1),而SGD中的统一梯度范数上界可能为无穷大。
  • 对于多分类逻辑回归,论文证明H(f) ≤ (2/n)∑‖ai‖²,表明在标准假设下其保持有界且较小。
  • 在真实数据集上的实证结果表明,SCSG在收敛速度与通信效率方面均优于SGD及其他SVRG变体。
  • 理论分析表明,SCSG在低精度场景下从不劣于SGD,且由于H(f)度量的存在,可实现显著更优的常数项。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。