[论文解读] Stochastic Polyak Step-size for SGD: An Adaptive Learning Rate for Fast Convergence
引入 SPS,一种用于 SGD 的随机 Polyak 步长——通过使用 f_i* 和 f_i(x) 来自适应学习率,在强凸、凸以及非凸设定下实现快速收敛,在插值(interpolation)情形中取得显著结果。
We propose a stochastic variant of the classical Polyak step-size (Polyak, 1987) commonly used in the subgradient method. Although computing the Polyak step-size requires knowledge of the optimal function values, this information is readily available for typical modern machine learning applications. Consequently, the proposed stochastic Polyak step-size (SPS) is an attractive choice for setting the learning rate for stochastic gradient descent (SGD). We provide theoretical convergence guarantees for SGD equipped with SPS in different settings, including strongly convex, convex and non-convex functions. Furthermore, our analysis results in novel convergence guarantees for SGD with a constant step-size. We show that SPS is particularly effective when training over-parameterized models capable of interpolating the training data. In this setting, we prove that SPS enables SGD to converge to the true solution at a fast rate without requiring the knowledge of any problem-dependent constants or additional computational overhead. We experimentally validate our theoretical results via extensive experiments on synthetic and real datasets. We demonstrate the strong performance of SGD with SPS compared to state-of-the-art optimization methods when training over-parameterized models.
研究动机与目标
- 在有限和学习问题中为 SGD 的步长选择提供动机与解决方案。
- 将随机 Polyak 步长(SPS)作为 SGD 的自适应学习率引入。
- 给出 SPS 在强凸、凸及非凸条件下的理论收敛性保证。
- 表明在插值设置中,SPS 能高效收敛到真实解。
- 展示在合成数据和真实数据集上,不同模型中 SPS 的经验性能。
提出的方法
- 将 SPS 定义为 gamma_k = (f_i(x^k) - f_i^*) / (c ||∇f_i(x^k)||^2) 及其有界变体 SPS_max。
- 将 SPS 与经典的确定性 Polyak 步长联系起来,并讨论对 f_i^* 的已知性及 c 的选择。
- 给出在强凸、凸,以及非凸(PL 条件)下的 SPS_max 的理论收敛结果,以及在常数步长范畴中的结果。
- 分析插值与过参数化设置,在其中 SPS 能以快速收敛到真实解。
- 给出对非光滑和流式设置的扩展,并将 SPS 与线性系统求解器联系起来。
实验结果
研究问题
- RQ1随机 Polyak 步长(SPS)是否能保证 SGD 在强凸、凸及非凸目标函数下的收敛?
- RQ2在插值(过参数化)情形下,SPS 相较于常数步长 SGD 及其他自适应方法如何?
- RQ3在不同光滑性和凸性假设下,SPS 与 SPS_max 的收敛速率与近邻半径是多少?
- RQ4在插值设置中,在不知问题相关常数的情况下,SPS 能否收敛到精确解?
- RQ5在合成数据和过参数化模型上,与最先进的优化器相比,SPS 的经验表现如何?
主要发现
- SPS 为在强凸、凸和非凸光滑设置下的 SGD 提供收敛保证。
- SPS_max 能以线性收敛速率收敛到一个近邻,此近邻的大小取决于上界 γ_b 与最优目标差 σ^2。
- 在插值情形,SPS 使 SGD 能在不需要问题相关常数或额外开销的情况下,以较快的速率收敛到真实解。
- 在常数步长范畴,SPS 展现的收敛行为在某些界限下与传统常数步长 SGD 相匹配或更优。
- 实验结果显示,在过参数化模型上,SPS 在合成数据、深度矩阵分解、基于核的二分类以及深度网络等方面胜过若干优化方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。