Skip to main content
QUICK REVIEW

[论文解读] Fine-Grained Analysis of Stability and Generalization for Stochastic Gradient Descent

Yunwen Lei, Yiming Ying|arXiv (Cornell University)|Jun 15, 2020
Stochastic Gradient Optimization Techniques被引用 29
一句话总结

本文通过去除有界梯度和强光滑性等限制性假设,对随机梯度下降(SGD)进行了细粒度的稳定性和泛化性分析。提出了平均模型稳定性,推导出低噪声环境下快速的 $O(1/n)$ 泛化界,并通过平衡计算与稳定性,为铰链损失等非光滑损失函数建立了最优界。

ABSTRACT

Recently there are a considerable amount of work devoted to the study of the algorithmic stability and generalization for stochastic gradient descent (SGD). However, the existing stability analysis requires to impose restrictive assumptions on the boundedness of gradients, strong smoothness and convexity of loss functions. In this paper, we provide a fine-grained analysis of stability and generalization for SGD by substantially relaxing these assumptions. Firstly, we establish stability and generalization for SGD by removing the existing bounded gradient assumptions. The key idea is the introduction of a new stability measure called on-average model stability, for which we develop novel bounds controlled by the risks of SGD iterates. This yields generalization bounds depending on the behavior of the best model, and leads to the first-ever-known fast bounds in the low-noise setting using stability approach. Secondly, the smoothness assumption is relaxed by considering loss functions with Holder continuous (sub)gradients for which we show that optimal bounds are still achieved by balancing computation and stability. To our best knowledge, this gives the first-ever-known stability and generalization bounds for SGD with even non-differentiable loss functions. Finally, we study learning problems with (strongly) convex objectives but non-convex loss functions.

研究动机与目标

  • 为克服现有SGD稳定性分析中依赖有界梯度和强光滑性等限制性假设的局限性。
  • 提出一种新的稳定性度量——平均模型稳定性,通过聚焦于最优模型的风险,更准确地捕捉SGD的泛化行为。
  • 通过将光滑性假设放宽至Hölder连续(次)梯度,将泛化界扩展至非光滑损失函数(如铰链损失)。
  • 分析目标函数为(强)凸但个体损失函数非凸的SGD情形,此时标准稳定性论证失效。
  • 通过平衡计算量与算法稳定性,即使在较弱的正则性条件下,也建立最优泛化界。

提出的方法

  • 提出平均模型稳定性,一种新颖的稳定性度量,通过加权经验风险而非依赖统一的Lipschitz常数。
  • 利用损失函数的光滑性,将平均模型稳定性与最优模型的风险联系起来,从而获得更紧致的泛化界。
  • 应用优化误差分析中的工具,对经验风险的加权和进行上界估计,表明优化进展可提升泛化性能。
  • 依赖(次)梯度的Hölder连续性而非强光滑性,使非光滑损失(如铰链损失)的分析成为可能。
  • 提出一种仅需目标函数凸性的二次不等式,避免对梯度更新中非扩张性的要求。
  • 通过建模每轮次的更新并利用排列上的均匀抽样,将稳定性界扩展至无放回SGD,以控制误差传播。

实验结果

研究问题

  • RQ1能否在不假设梯度有界的前提下,为SGD推导出泛化界?
  • RQ2在较弱的光滑性假设下,能否为铰链损失等非光滑损失函数实现最优泛化界?
  • RQ3当个体损失函数非凸但整体目标函数为(强)凸时,SGD的算法稳定性行为如何?
  • RQ4能否通过基于稳定性的分析,在低噪声环境下实现 $O(1/n)$ 量级的快速泛化率?
  • RQ5在实现紧致泛化界时,计算量(迭代次数)与稳定性的最优权衡是什么?

主要发现

  • 本文首次基于稳定性方法,为低噪声环境下SGD建立了 $O(1/n)$ 量级的快速泛化界。
  • 平均模型稳定性使得泛化界依赖于最优模型的风险,而非梯度的统一有界性。
  • 对于具有Hölder连续(次)梯度的损失函数,即使在非光滑损失(如铰链损失)下,通过运行 $O(n^2)$ 次迭代也能实现最优泛化界。
  • 该分析消除了对有界梯度假设的需求,从而避免了以往分析中排除标准问题(如最小二乘回归)的缺陷。
  • 通过基于目标函数凸性的新型二次不等式,稳定性分析在(强)凸目标函数与非凸个体损失函数下依然成立。
  • 对于无放回SGD,期望稳定性被有界为步长幂次之和与平均步长成比例的项,且能对数据点变化的影响实现显式控制。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。