Skip to main content
QUICK REVIEW

[论文解读] Stochastic Gradient Descent on Separable Data: Exact Convergence with a Fixed Learning Rate

Mor Shpigel Nacson, Nathan Srebro|arXiv (Cornell University)|Jun 5, 2018
Stochastic Gradient Optimization Techniques被引用 35
一句话总结

该论文证明了在使用固定学习率的随机梯度下降(SGD)方法下,对于线性可分数据上的齐次线性分类器,若损失函数为平滑单调型(如逻辑损失),SGD 可收敛至零损失。它表明权重向量的方向以 O(1/log t) 的速率收敛至 L2 最大间隔解,且损失以 O(1/t) 的速率衰减,即使在不使用学习率衰减或迭代平均的情况下,无论采用有放回还是无放回采样,该结论均成立。

ABSTRACT

Stochastic Gradient Descent (SGD) is a central tool in machine learning. We prove that SGD converges to zero loss, even with a fixed (non-vanishing) learning rate - in the special case of homogeneous linear classifiers with smooth monotone loss functions, optimized on linearly separable data. Previous works assumed either a vanishing learning rate, iterate averaging, or loss assumptions that do not hold for monotone loss functions used for classification, such as the logistic loss. We prove our result on a fixed dataset, both for sampling with or without replacement. Furthermore, for logistic loss (and similar exponentially-tailed losses), we prove that with SGD the weight vector converges in direction to the $L_2$ max margin vector as $O(1/\log(t))$ for almost all separable datasets, and the loss converges as $O(1/t)$ - similarly to gradient descent. Lastly, we examine the case of a fixed learning rate proportional to the minibatch size. We prove that in this case, the asymptotic convergence rate of SGD (with replacement) does not depend on the minibatch size in terms of epochs, if the support vectors span the data. These results may suggest an explanation to similar behaviors observed in deep networks, when trained with SGD.

研究动机与目标

  • 为解决深度神经网络中固定学习率 SGD 的经验收敛现象与理论结果之间存在的矛盾,后者通常要求学习率趋于零或使用迭代平均。
  • 在齐次线性分类器于线性可分数据上的特殊情形下,建立使用固定学习率的 SGD 精确收敛至零损失的理论证明。
  • 刻画在固定学习率下,权重向量方向收敛至 L2 最大间隔解的速率以及损失衰减的速率。
  • 分析当学习率与小批量大小成正比时,小批量大小对渐近收敛速率的影响。

提出的方法

  • 分析在齐次线性分类器上,针对线性可分数据集,使用平滑单调损失函数(如逻辑损失)时的 SGD 动态行为。
  • 证明在任意固定学习率下,权重向量的范数会发散至无穷大,从而实现损失最小化。
  • 利用集中不等式和调和级数近似,界定 SGD 迭代值与其期望之间的偏差。
  • 应用霍夫丁不等式,证明梯度更新中的随机波动以概率 1 衰减至 o(t^{-0.5+ε})。
  • 通过将权重更新分解为确定性和随机两部分,推导出收敛速率,表明随机部分在渐近下趋于零。
  • 同时考虑有放回和无放回采样情形,证明在两种情况下均能实现收敛。

实验结果

研究问题

  • RQ1在理论假设通常要求学习率趋于零的前提下,SGD 是否仍能以固定学习率在可分数据上收敛至零损失?
  • RQ2在固定学习率的 SGD 下,权重向量方向收敛至 L2 最大间隔解的速率是多少?
  • RQ3对于逻辑损失等单调损失函数,固定学习率 SGD 下损失随时间的衰减速率如何?
  • RQ4当学习率与小批量大小成正比时,SGD 的渐近收敛速率是否依赖于小批量大小?

主要发现

  • 使用固定学习率的 SGD 可在具有平滑单调损失函数的线性可分数据上收敛至零损失,即使不使用迭代平均或学习率衰减。
  • 对于逻辑损失及类似重尾指数型损失,权重向量方向以 O(1/log t) 的速率收敛至 L2 最大间隔解。
  • 训练损失以 O(1/t) 的速率衰减,与同一问题上梯度下降的收敛速率一致。
  • 当固定学习率与小批量大小成正比时,若支持向量张成数据空间,则有放回采样下 SGD 的渐近收敛速率在以 epoch 为单位时与小批量大小无关。
  • 在相同固定学习率设置下,收敛结果在有放回和无放回采样中均成立。
  • 理论分析确认,权重更新中的随机波动在渐近下趋于消失,从而确保收敛至最优方向。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。