[论文解读] Tight Dimension Independent Lower Bound on the Expected Convergence Rate for Diminishing Step Sizes in SGD
本文建立了强凸函数上随机梯度下降(SGD)预期收敛速率的维数无关下界,证明了ICML 2018和2019年提出的递减步长序列在所有迭代和维数下均普遍处于最优值的32倍以内。
We study the convergence of Stochastic Gradient Descent (SGD) for strongly convex objective functions. We prove for all $t$ a lower bound on the expected convergence rate after the $t$-th SGD iteration; the lower bound is over all possible sequences of diminishing step sizes. It implies that recently proposed sequences of step sizes at ICML 2018 and ICML 2019 are {\em universally} close to optimal in that the expected convergence rate after {\em each} iteration is within a factor $32$ of our lower bound. This factor is independent of dimension $d$. We offer a framework for comparing with lower bounds in state-of-the-art literature and when applied to SGD for strongly convex objective functions our lower bound is a significant factor $775\cdot d$ larger compared to existing work.
研究动机与目标
- 建立强凸目标函数下使用递减步长的SGD预期收敛速率的普遍下界。
- 评估ICML 2018和ICML 2019年提出的近期步长序列在收敛速率方面的最优性。
- 开发一个用于比较最先进文献中收敛下界的方法框架。
- 证明所提出的下界比现有下界高出775·d倍。
提出的方法
- 推导所有可能的递减步长序列在每次SGD迭代后预期收敛速率的下界。
- 应用一种新颖的分析框架,比较不同步长序列的收敛速率。
- 利用目标函数的强凸性,推导出与维数d无关的紧致边界。
- 将推导出的下界与现有文献中的边界进行比较,显示出775·d倍的乘法差距。
- 通过对所有可能的递减步长序列进行最坏情况分析,以确立普遍性。
- 通过将已知步长序列与推导出的下界进行比较,量化其最优性差距。
实验结果
研究问题
- RQ1对于强凸函数的SGD,任何递减步长序列在多大程度上能接近最优的预期收敛速率?
- RQ2ICML 2018和ICML 2019年提出的步长序列在收敛速率方面有多接近最优?
- RQ3SGD使用递减步长时,预期收敛速率的维数无关下界是什么?
- RQ4所提出的下界与文献中现有下界在数量上如何比较?
- RQ5能否开发一个通用框架,用于比较不同SGD步长策略下的收敛下界?
主要发现
- 本文建立了强凸函数上SGD预期收敛速率的维数无关下界。
- 所提出的下界比文献中最佳现有下界大775·d倍。
- ICML 2018和ICML 2019年提出的步长序列在所有迭代和所有维数下,均处于推导出的下界的32倍以内。
- 这一32倍的因子是普遍的,且与问题维数d无关,表明在所有设置下均接近最优。
- 该框架可直接比较收敛下界,揭示了先前工作中存在的显著差距。
- 结果表明,任何递减步长序列的预期收敛速率均无法优于所提出下界的32倍。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。