QUICK REVIEW

[論文レビュー] Why is Normalization Preferred? A Worst-Case Complexity Theory for Stochastically Preconditioned SGD under Heavy-Tailed Noise

Yuchen Fang, James Demmel|arXiv (Cornell University)|Feb 13, 2026

Stochastic Gradient Optimization Techniques被引用数 0

ひとこと要約

この論文は、確率的に前処理された SGD（SPSGD）におけるステップ正規化が heavy-tailed ノイズ下で最適な収束を達成することを証明し、クリッピングは前処強化器と勾配推定値の依存性のため worst case で失敗する可能性がある。

ABSTRACT

We develop a worst-case complexity theory for stochastically preconditioned stochastic gradient descent (SPSGD) and its accelerated variants under heavy-tailed noise, a setting that encompasses widely used adaptive methods such as Adam, RMSProp, and Shampoo. We assume the stochastic gradient noise has a finite $p$-th moment for some $p \in (1,2]$, and measure convergence after $T$ iterations. While clipping and normalization are parallel tools for stabilizing training of SGD under heavy-tailed noise, there is a fundamental separation in their worst-case properties in stochastically preconditioned settings. We demonstrate that normalization guarantees convergence to a first-order stationary point at rate $\mathcal{O}(T^{-\frac{p-1}{3p-2}})$ when problem parameters are known, and $\mathcal{O}(T^{-\frac{p-1}{2p}})$ when problem parameters are unknown, matching the optimal rates for normalized SGD, respectively. In contrast, we prove that clipping may fail to converge in the worst case due to the statistical dependence between the stochastic preconditioner and the gradient estimates. To enable the analysis, we develop a novel vector-valued Burkholder-type inequality that may be of independent interest. These results provide a theoretical explanation for the empirical preference for normalization over clipping in large-scale model training.

研究の動機と目的

SPSGD およびその加速変種における heavy-tailed 勾配ノイズ下での確率的最適化を動機づけ、分析する。
勾配が確率的行列で前処理される場合、クリッピングと正規化を比較する。
最悪ケースの収束保証を確立し、実務で正規化が好まれる理由を説明する。

提案手法

確率的前処理器 D_k とモーメントを用いて SPSGD をモデル化し、x_{k+1} = x_k - η D_k m_k / ||D_k m_k|| と更新する。
heavy-tailed ノイズがあるとき、p-乗モーメント（p ∈ (1,2]）の条件の下で一次的停止点へ収束を証明する。
既知パラメータの場合は O(T^{-(p-1)/(3p-2)})、未知パラメータの場合は O(T^{-(p-1)/(2p)}) の収束速度を導出する。
解析を境界づけるためのベクトル値 Burkholder 型不等式を導入する。
SPSGD における正規化とクリッピングを幾何的に比較する。
D_k と勾配ノイズとの共分散性のためにクリッピングが収束しない可能性を示す。

実験結果

リサーチクエスチョン

RQ1heavy-tailed ノイズ下で SPSGD の収束をステップ正規化は保証するか、どの速度で？
RQ2 past gradient に依存する確率的前処理機に対して、クリッピングと正規化は worst-case 収束で異なるか？
RQ3既知の問題パラメータと未知のパラメータは heavy-tailed ノイズ下での正規化 SPSGD の収束速度にどう影響するか？
RQ4この設定でベクトル値の確率的不等式が確率誤差を束縛するのに役立つか？
RQ5確率的前処理下の SPSGD において、幾何的観点から正規化が更新を安定化させ、クリッピングが持続的な共分散を生む理由は何か？

主な発見

正規化は heavy-tailed ノイズ下で一次的停止点への収束を保証し、収束速度は NSGD に一致する：パラメータが既知のときは O(T^{-(p-1)/(3p-2)})、未知のときは O(T^{-(p-1)/(2p)})。
前処理器 D_k と勾配推定値の間の依存性により、 worst-case でクリッピングが収束しない可能性がある。
確率誤差項を束縛する新しいベクトル値 Burkholder 型不等式を構築し、(1,2] の範囲での解析を改善した。
穏やかな仮定の下で、全勾配ノルムは正規化によって κ_D の平方根の要因まで制御され、D_k の整合性に対する頑健性を示す。
正規化が更新を安定化させ、クリッピングが持続的な共分散をもたらす理由を幾何的に説明する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。