Skip to main content
QUICK REVIEW

[论文解读] Stochastic Gradient Descent for Non-smooth Optimization: Convergence Results and Optimal Averaging Schemes

Ohad Shamir, Tong Zhang|arXiv (Cornell University)|Dec 8, 2012
Advanced Bandit Algorithms Research参考文献 13被引用 411
一句话总结

该论文首次为非光滑凸函数和强凸函数上的随机梯度下降(SGD)建立了有限样本收敛边界,且无需平滑性假设。证明了在强凸情况下,SGD 的最后迭代能达到最优的 $Ø(\log T / T)$ 子最优率,并提出了一种简单且可在线计算的多项式衰减平均方案,其性能达到极小极大最优率。

ABSTRACT

Stochastic Gradient Descent (SGD) is one of the simplest and most popular stochastic optimization methods. While it has already been theoretically studied for decades, the classical analysis usually required non-trivial smoothness assumptions, which do not apply to many modern applications of SGD with non-smooth objective functions such as support vector machines. In this paper, we investigate the performance of SGD without such smoothness assumptions, as well as a running average scheme to convert the SGD iterates to a solution with optimal optimization accuracy. In this framework, we prove that after T rounds, the suboptimality of the last SGD iterate scales as O(log(T)/\sqrt{T}) for non-smooth convex objective functions, and O(log(T)/T) in the non-smooth strongly convex case. To the best of our knowledge, these are the first bounds of this kind, and almost match the minimax-optimal rates obtainable by appropriate averaging schemes. We also propose a new and simple averaging scheme, which not only attains optimal rates, but can also be easily computed on-the-fly (in contrast, the suffix averaging scheme proposed in Rakhlin et al. (2011) is not as simple to implement). Finally, we provide some experimental illustrations.

研究动机与目标

  • 为填补理解 SGD 在非光滑目标函数上收敛性的理论空白,这类函数在现代机器学习中很常见(例如,带合页损失的 SVM)。
  • 在通常在经典分析中所需的平滑性假设之外,分析单个 SGD 迭代(尤其是最后迭代)的性能。
  • 提出一种实用且理论最优的平均方案,可在线计算,克服了以往后缀平均方法的局限性。
  • 为非光滑设置下的 SGD 建立紧致的有限样本收敛率,与已知的极小极大下界一致。

提出的方法

  • 分析了在凸问题中采用递减步长 $\eta_t = \Theta(1/\sqrt{t})$,在强凸问题中采用 $\Theta(1/t)$ 的 SGD。
  • 推导了最后迭代 $\mathbf{w}_T$ 的期望子最优性的有限样本边界,证明在强凸函数下有 $\mathbb{E}[F(\mathbf{w}_T) - F(\mathbf{w}^*)] = \mathcal{O}(\log T / T)$。
  • 提出了一种多项式衰减平均方案:$\mathbf{w}_{\text{avg}} = \sum_{t=1}^T \frac{t^{-\eta}}{\sum_{s=1}^T s^{-\eta}} \mathbf{w}_t$,其中 $\eta = 3$,该方案可在线计算。
  • 证明该方案在强凸情况下能达到最优的 $\mathcal{O}(1/T)$ 收敛率,与极小极大下界一致。
  • 采用基于势函数和鞅集中性的新颖分析框架,无需平滑性假设即可界定向期望子最优性。
  • 与简单平均和后缀平均在 SVM 问题上的实验比较表明,所提方案性能更优。

实验结果

研究问题

  • RQ1SGD 在非光滑凸函数和强凸函数上的最后迭代的有限样本收敛率是什么?
  • RQ2在非光滑强凸情况下,能否设计一种简单且可在线计算的平均方案,实现极小极大最优的 $\mathcal{O}(1/T)$ 收敛率?
  • RQ3在非光滑设置下,SGD 最后迭代的性能是否劣于平均方案?
  • RQ4SGD 的理论分析能否在不依赖梯度利普希茨连续性或高阶平滑性的情况下,推广到非光滑函数?
  • RQ5在强凸情况下,最后迭代的 $\mathcal{O}(\log T / T)$ 率是否紧致,或可进一步改进?

主要发现

  • 非光滑强凸函数下,SGD 最后迭代 $\mathbf{w}_T$ 的期望子最优性被界为 $\mathcal{O}(\log T / T)$,接近最优。
  • 所提出的多项式衰减平均方案在强凸情况下实现了极小极大最优的 $\mathcal{O}(1/T)$ 收敛率。
  • 多项式衰减平均方案可在线计算,无需存储所有历史迭代,而 Rakhlin 等人(2011)的后缀平均方案则需要。
  • 实验结果表明,多项式衰减平均在多个数据集上的测试误差表现优于简单平均,且与后缀平均相当或更优。
  • 分析表明,与以往假设相反,在非光滑设置下,SGD 最后迭代并非子最优,可实现 $\mathcal{O}(\log T / T)$ 的收敛率。
  • 本文首次为非光滑函数上的 SGD 建立了不依赖梯度平滑性假设的有限样本收敛边界。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。