Skip to main content
QUICK REVIEW

[论文解读] Why is Normalization Preferred? A Worst-Case Complexity Theory for Stochastically Preconditioned SGD under Heavy-Tailed Noise

Yuchen Fang, James Demmel|arXiv (Cornell University)|Feb 13, 2026
Stochastic Gradient Optimization Techniques被引用 0
一句话总结

论文证明在随机预条件 SGD(SPSGD)中的步长归一化在强尾噪声下实现最优收敛,而剪切在 worst-case 情况下可能失败,因为预条件算子与梯度估计之间存在依赖。

ABSTRACT

We develop a worst-case complexity theory for stochastically preconditioned stochastic gradient descent (SPSGD) and its accelerated variants under heavy-tailed noise, a setting that encompasses widely used adaptive methods such as Adam, RMSProp, and Shampoo. We assume the stochastic gradient noise has a finite $p$-th moment for some $p \in (1,2]$, and measure convergence after $T$ iterations. While clipping and normalization are parallel tools for stabilizing training of SGD under heavy-tailed noise, there is a fundamental separation in their worst-case properties in stochastically preconditioned settings. We demonstrate that normalization guarantees convergence to a first-order stationary point at rate $\mathcal{O}(T^{-\frac{p-1}{3p-2}})$ when problem parameters are known, and $\mathcal{O}(T^{-\frac{p-1}{2p}})$ when problem parameters are unknown, matching the optimal rates for normalized SGD, respectively. In contrast, we prove that clipping may fail to converge in the worst case due to the statistical dependence between the stochastic preconditioner and the gradient estimates. To enable the analysis, we develop a novel vector-valued Burkholder-type inequality that may be of independent interest. These results provide a theoretical explanation for the empirical preference for normalization over clipping in large-scale model training.

研究动机与目标

  • 在 SPSGD 及其加速变体下,动机与分析强尾梯度噪声下的随机优化。
  • 比较在随机矩阵预条件下,梯度经过剪切与归一化的差异。
  • 建立最坏情况收敛性保证并解释在实际中为何偏好归一化。

提出的方法

  • 对 SPSGD 进行建模,使用随机预条件 D_k 和动量,更新 x_{k+1} = x_k - eta D_k m_k / ||D_k m_k||。
  • 在具有 p 阶矩(p ∈ (1,2])的强尾噪声下证明收敛到一阶驻点。
  • 推导速率:若参数已知,O(T^{-(p-1)/(3p-2)}); 参数未知时,O(T^{-(p-1)/(2p)})。
  • 引入向量值 Burkholder 型不等式以界定分析中的随机和。
  • 提供对归一化与剪切在 SPSGD 中的几何直觉比较。
  • 展示剪切由于 D_k 与梯度噪声之间的协方差可能导致收敛失败。

实验结果

研究问题

  • RQ1步长归一化是否保证在强尾噪声下的 SPSGD 收敛,以及速率是多少?
  • RQ2当随机预条件器依赖于过去梯度时,剪切与归一化在最坏情况的收敛是否不同?
  • RQ3已知参数与未知参数如何影响强尾噪声下归一化 SPSGD 的收敛速率?
  • RQ4是否有新的概率不等式有助于在此情形下界定向量值随机误差?
  • RQ5从几何角度看为何在带随机预条件的 SPSGD 中归一化优于剪切?

主要发现

  • 在强尾噪声下,归一化能收敛到一阶驻点,速率与 NSGD 相匹配:当参数已知时为 O(T^{-(p-1)/(3p-2)}),参数未知时为 O(T^{-(p-1)/(2p)})。
  • 剪切在最坏情况下可能因为 D_k 与梯度估计之间的依赖而失效收敛。
  • 提出了新的向量值 Burkholder 型不等式以界定随机误差项,在区间 p ∈ (1,2] 的分析中提供改进。
  • 在温和假设下,总梯度范数通过归一化被控制在一个 sqrt(κ_D) 的因子之内,体现对 D_k 条件性的鲁棒性。
  • 工作给出为何归一化能稳定更新,而剪切可能引入持久的协方差的几何解释。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。