Skip to main content
QUICK REVIEW

[論文レビュー] Why Adam Works Better with $β_1 = β_2$: The Missing Gradient Scale Invariance Principle

Alberto Fernández-Hernández, Cristian Pérez-Corral|arXiv (Cornell University)|Jan 29, 2026
Stochastic Gradient Optimization Techniques被引用数 0
ひとこと要約

要約: 本論文は Adam が第一階の勾配スケール不変性を β1 = β2 のとき iff 保持することを証明し,これがより滑らかで安定した更新につながると示し,視覚領域および言語タスクを横断する実験で裏付ける。

ABSTRACT

Adam has been at the core of large-scale training for almost a decade, yet a simple empirical fact remains unaccounted for: both validation scores and the qualitative behaviour of the training runs improve when the momentum parameters satisfy $β_{1}=β_{2}$. Some recent studies have reported this pattern, but there is still no explanation for why this choice helps. We show that this choice is closely tied to a structural property that we refer to as extit{gradient scale invariance}. We formalize this notion and prove that Adam becomes gradient scale invariant of first order if and only if $β_{1}=β_{2}$. This perspective places the balanced regime of Adam in direct alignment with the design principles underlying several recent optimizers that explicitly enforce scale-robust updates. The theory is supported by experiments across vision and language tasks, and across different architectural families, in which rescaling the gradient has a markedly smoother effect on the update when $β_{1}=β_{2}$. Overall, our results offer a coherent explanation for an open question in the behavior of Adam and provide a simple principle that helps guide the design of future optimizers.

研究の動機と目的

  • momentum パラメータ (β1 = β2) の結びつきが Adam の安定性と性能を改善する理由の理解を動機づける。
  • 勾配スケール不変性を Adam の更新に関連する構造的性質として形式化する。
  • Adam が第一階の勾配スケール不変性をβ1 = β2のとき precisely 適用することを示す。
  • 理論と実証分析を通じて、現代のスケール頑健なオプティマイザ設計へ balanced Adam を接続する。

提案手法

  • 勾配スケール不変性と更新規則の正式な定義を導入する。
  • 勾配スケールの依存性を分析するため、離散更新から連続時間の Adam フローを導出する。
  • 勾配ドリフト δ(t) に対する m, v, および正規化更新 R の一階展開を行う。
  • Adam が第一階の勾配スケール不変性を β1 = β2 のとき iff 保持することを証明する(τ1 = τ2、すなわち β1 = β2)。
  • 仮想データと現実の訓練実験を用いて理論を検証する(視覚・言語モデルの複数アーキテクチャとデータセット)。
  • β1, β2 の構成ごとに更新ノルムの振動を定量化し、更新の安定性を比較する。
Figure 1 : Evolution of $\|\mathbf{R}_{k}\|$ in Adam for $\beta_{1}=\beta_{2}$ .
Figure 1 : Evolution of $\|\mathbf{R}_{k}\|$ in Adam for $\beta_{1}=\beta_{2}$ .

実験結果

リサーチクエスチョン

  • RQ1β1 と β2 を結ぶとき(β1 = β2)なぜ Adam の更新が安定し、タスク全体で性能が向上するのか?
  • RQ2β1 ≠ β2 のとき勾配スケールは Adam の更新にどのように影響するのか、第一階のスケール不変性が成り立つ条件は何か?
  • RQ3勾配スケール不変性という概念は、実践で観察される新しいスケール頑健オプティマイザと Adam を統一できるか?
  • RQ4アーキテクチャ間の訓練ダイナミクスにおいて、第一階の勾配スケール不変性の経験的指標はどのように現れるか?

主な発見

  • Adam は β1 = β2 のときのみ第一階の勾配スケール不変である(連続時間フローでは τ1 = τ2)。
  • β1 = β2 のとき、更新の勾配大きさへの支配的な依存が消え、勾配方向により安定な更新を生み出す。
  • 視覚・言語タスクを含む合成・実モデルの実験で、β1 = β2 の場合に更新ノルムが滑らかで振動が抑制されることを示す。
  • 複数のアーキテクチャ/データセットを横断した経験的振動分析は、β1 = β2 が更新振動を対角線的に最小化することを高い統計的有意性で示す。
  • 結果は balanced Adam をスケール頑健オプティマイザの広範な文脈に位置づけ、今後の手法設計への原則的ガイドラインを提供する。
Figure 2 : Evolution of $\|\mathbf{R}_{k}\|$ in Adam for $\beta_{1}\neq\beta_{2}$ .
Figure 2 : Evolution of $\|\mathbf{R}_{k}\|$ in Adam for $\beta_{1}\neq\beta_{2}$ .

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。