[论文解读] SGD Generalizes Better Than GD (And Regularization Doesn't Help)
本文展示了随机梯度下降(SGD)与全批量梯度下降(GD)在随机凸优化中的基本泛化差距。尽管SGD在$O(1/\epsilon^2)$次迭代内可实现$\epsilon$的过剩风险,GD即使在正则化条件下仍需$\Omega(1/\epsilon^4)$次迭代才能达到SGD的泛化性能,凸显了SGD的隐式偏差在泛化中的关键作用。
We give a new separation result between the generalization performance of stochastic gradient descent (SGD) and of full-batch gradient descent (GD) in the fundamental stochastic convex optimization model. While for SGD it is well-known that $O(1/\epsilon^2)$ iterations suffice for obtaining a solution with $\epsilon$ excess expected risk, we show that with the same number of steps GD may overfit and emit a solution with $\Omega(1)$ generalization error. Moreover, we show that in fact $\Omega(1/\epsilon^4)$ iterations are necessary for GD to match the generalization performance of SGD, which is also tight due to recent work by Bassily et al. (2020). We further discuss how regularizing the empirical risk minimized by GD essentially does not change the above result, and revisit the concepts of stability, implicit bias and the role of the learning algorithm in generalization.
研究动机与目标
- 在随机凸优化中建立SGD与GD之间泛化性能的理论分离。
- 分析正则化是否能缓解GD相较于SGD的泛化性能较差的问题。
- 研究算法稳定性与隐式偏差在泛化中的作用,特别是在GD与SGD的对比背景下。
- 阐明为何GD在最小化经验风险时仍会过拟合,即使有正则化。
提出的方法
- 分析在独立同分布数据下的随机凸优化模型中,GD与SGD的泛化误差。
- 通过损失函数的最坏情况构造,证明GD在$O(1/\epsilon^2)$步后仍存在常数级别的泛化误差,即发生过拟合。
- 建立GD实现$\epsilon$过剩风险所需的下界为$\Omega(1/\epsilon^4)$次迭代,该下界与已知的上界一致。
- 考虑GD的正则化经验风险最小化,表明正则化无法弥合泛化差距。
- 利用Bassily等人(2020)的最新结果,证明$\Omega(1/\epsilon^4)$下界具有紧致性。
- 重新审视算法稳定性与隐式偏差的概念,以解释为何SGD的泛化性能优于GD。
实验结果
研究问题
- RQ1在随机凸优化中,GD是否能在与SGD相同的迭代次数内实现相同的泛化性能?
- RQ2GD实现与SGD相同的$\epsilon$泛化误差所需的最少迭代次数是多少?
- RQ3对经验风险进行正则化是否能最小化GD与SGD之间的泛化差距?
- RQ4算法稳定性与隐式偏差如何影响GD与SGD的泛化性能?
- RQ5为何GD在最小化经验风险时仍会过拟合,而SGD却能良好泛化?
主要发现
- SGD在$O(1/\epsilon^2)$次迭代内可实现$\epsilon$的过剩期望风险,与已知收敛速率一致。
- GD在相同迭代次数($O(1/\epsilon^2)$)下产生$\Omega(1)$的泛化误差,表明其存在过拟合。
- GD需$\Omega(1/\epsilon^4)$次迭代才能实现$\epsilon$的过剩风险,该结果因近期上界结果而具有紧致性。
- 对经验风险的正则化无法改善GD的泛化性能,也无法弥合其与SGD之间的差距。
- 泛化差距归因于SGD的隐式偏差,而不仅仅是优化动力学或稳定性因素。
- 研究结果表明,算法选择——特别是SGD与GD的对比——在泛化中起着关键作用,且独立于显式正则化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。