Skip to main content
QUICK REVIEW

[论文解读] Accelerating Minibatch Stochastic Gradient Descent using Stratified Sampling

Peilin Zhao, Tong Zhang|arXiv (Cornell University)|May 13, 2014
Stochastic Gradient Optimization Techniques参考文献 11被引用 83
一句话总结

本文提出了一种用于小批量随机梯度下降(SGD)的分层采样策略,通过将数据聚类为低方差子组并按比例从每个簇中采样,从而降低方差。与均匀采样相比,该方法实现了更快的收敛速度和更好的泛化性能,实证结果表明在多个数据集上显著降低了方差并加快了训练速度。

ABSTRACT

Stochastic Gradient Descent (SGD) is a popular optimization method which has been applied to many important machine learning tasks such as Support Vector Machines and Deep Neural Networks. In order to parallelize SGD, minibatch training is often employed. The standard approach is to uniformly sample a minibatch at each step, which often leads to high variance. In this paper we propose a stratified sampling strategy, which divides the whole dataset into clusters with low within-cluster variance; we then take examples from these clusters using a stratified sampling technique. It is shown that the convergence rate can be significantly improved by the algorithm. Encouraging experimental results confirm the effectiveness of the proposed method.

研究动机与目标

  • 解决由于均匀采样导致的小批量SGD方差过高问题,该问题会减缓收敛速度。
  • 通过最小化随机梯度估计器方差的上界,实现SGD的更快收敛速率。
  • 开发一种实用的采样策略,基于梯度方差对数据进行聚类,并从每个簇中采样以降低整体估计器的方差。
  • 证明分层采样在多个机器学习基准测试中优于均匀采样,表现在训练稳定性、测试准确率和方差降低方面。

提出的方法

  • 将训练数据集划分为簇,使得每个簇内部的梯度方差较低。
  • 采用基于优化的方法确定每个簇的最优采样概率,以最小化随机梯度估计器方差的上界。
  • 通过根据推导出的最优概率从每个簇中采样,构建一个无偏的随机梯度估计器。
  • 实现动态和固定分层策略,其中簇在每次迭代时重新计算或保持不变。
  • 将该方法应用于L2正则化的多类逻辑回归,使用与基线均匀采样相同的初始学习率和小批量大小。
  • 使用k-means聚类作为复杂优化问题求解簇形成过程的实用替代方案,且不降低性能。

实验结果

研究问题

  • RQ1分层采样是否能比均匀采样更有效地降低小批量随机梯度估计器的方差?
  • RQ2降低梯度方差是否能带来SGD中更快的收敛速度和更好的泛化性能?
  • RQ3在训练目标、测试误差和梯度方差方面,所提出的分层采样策略与均匀采样相比表现如何?
  • RQ4使用固定簇与动态簇对分层采样方法性能有何影响?
  • RQ5所提出的方法能否与其它方差减少技术(如SVRG或重要性采样)结合使用?

主要发现

  • 实证测量结果证实,所提出的分层采样方法相比均匀采样显著降低了随机梯度估计器的方差。
  • 在covtype.binary数据集上,使用分层采样的SGD(SGD-ss)在原始目标值方面实现了比均匀采样SGD更快且更稳定的收敛。
  • SGD-ss在所有评估的数据集(包括covtype.binary、letter、mnist、pendigits和usps)上均实现了更低且更稳定的测试误差率。
  • SGD-ss的随机梯度估计器方差始终低于均匀采样SGD,证实了理论上的方差降低效果。
  • 即使使用k-means聚类代替求解完整的优化问题进行簇分配,该方法仍保持了良好性能,表明其具有实际可行性。
  • 在多个数据集上,收敛速度的提升得到了实证验证,证明了所提出采样策略的鲁棒性和有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。