QUICK REVIEW

[論文レビュー] Adam Converges Without Any Modification On Update Rules

Y. Q. Zhang, Bingran Li|arXiv (Cornell University)|Mar 2, 2026

Stochastic Gradient Optimization Techniques被引用数 0

ひとこと要約

要約: 本論文は、問題依存のハイパーパラメータが選択された場合にバニラ Adam が収束することを証明し、beta1–beta2 の相転回およびバッチサイズ依存性を明らかにし、実用的な調整指針を提供する。

ABSTRACT

Adam is the default algorithm for training neural networks, including large language models (LLMs). However, \citet{reddi2019convergence} provided an example that Adam diverges, raising concerns for its deployment in AI model training. We identify a key mismatch between the divergence example and practice: \citet{reddi2019convergence} pick the problem after picking the hyperparameters of Adam, i.e., $(β_1,β_2)$; while practical applications often fix the problem first and then tune $(β_1,β_2)$. In this work, we prove that Adam converges with proper problem-dependent hyperparameters. First, we prove that Adam converges when $β_2$ is large and $β_1 < \sqrt{β_2}$. Second, when $β_2$ is small, we point out a region of $(β_1,β_2)$ combinations where Adam can diverge to infinity. Our results indicate a phase transition for Adam from divergence to convergence when changing the $(β_1, β_2)$ combination. To our knowledge, this is the first phase transition in $(β_1,β_2)$ 2D-plane reported in the literature, providing rigorous theoretical guarantees for Adam optimizer. We further point out that the critical boundary $(β_1^*, β_2^*)$ is problem-dependent, and particularly, dependent on batch size. This provides suggestions on how to tune $β_1$ and $β_2$: when Adam does not work well, we suggest tuning up $β_2$ inversely with batch size to surpass the threshold $β_2^*$, and then trying $β_1< \sqrt{β_2}$. Our suggestions are supported by reports from several empirical studies, which observe improved LLM training performance when applying them.

研究の動機と目的

古典的発散結果と Adam の実務的成功の間の乖離を動機づける。
アップデートルールの変更を行わずに、バニラ Adam が収束する条件を確立する。
beta1–beta2 平面における発散–収束の相転換を特徴づける。
収束のバッチサイズ依存性を強調し、実務家への調整指針を提供する。

提案手法

Adam を2つのサンプリング方式（置換ありとランダムシャッフル）で分析する。
定理3.1（置換あり）および定理3.3（ランダムシャッフル）を用いて、任意の問題クラス F_L,D0,D1^n に対する非漸近的収束結果を導出する。
大きな beta2 と beta1 < sqrt(beta2) が、臨界点への収束（実現可能）または近傍への収束（非実現可能）をもたらすことを示す。
小さな beta2 に対して発散領域が存在し、問題クラス依存の境界 beta1*, beta2* を提供する。
1/sqrt(v_k) 周辺の濃度分析を用いて、勾配が有界でない場合でも有界性を仮定せずに扱う。
Reddi et al. (2018) と比較して、beta1,beta2 を選ぶ前に問題を固定することで、問題クラスとバッチサイズに依存する相転換を明らかにする。

(a) Divergent region claimed by (Reddi et al. , 2018 )

実験結果

リサーチクエスチョン

RQ1問題を固定し、ハイパーパラメータを適切に選んだ場合、アップデートルールを変更せずにバニラ Adam は収束するか。
RQ2有限和 ERM 問題における beta1 と beta2 は収束・発散領域にどのような影響を与えるか。
RQ3beta1–beta2 平面に相転換が存在し、収束と発散を分けるのか。
RQ4収束の臨界境界に対して、バッチサイズと問題クラスのパラメータはどのように影響するか。
RQ5beta1, beta2 をバッチサイズと問題クラスと結びつける理論から、どんな実用的な調整指針が得られるか。

主な発見

収束領域が存在する：0 ≤ beta1 < sqrt(beta2) < 1 かつ beta2 が問題依存の閾値を超える場合、Adam は臨界点（実現可能）または近傍（非実現可能）へ収束する。
発散領域が存在する：小さな beta2 の場合、問題クラスのインスタンスで Adam が発散して無限大へ至ることがあり、境界はミニバッチ数 n の増加に伴い拡大する（つまりバッチサイズが小さいほど）。
beta1–beta2 平面に相転換が存在し、発散と収束を分ける。境界は問題クラスとバッチサイズに依存する。
臨界境界 (beta1*, beta2*) は問題依存で、バッチサイズに反比例して拡大するため、より小さなバッチにはより大きな beta2 が必要。
beta2 が大きい場合、バッチサイズとともに beta2 を調整することでLLMの事前学習での訓練が実務的に向上する傾向があり、beta2 が十分大きくなると beta1 を sqrt(beta2) 未満に保つことを推奨。
解析は置換ありとランダムシャッフルの2つのサンプリング方式を扱い、勾配が有界でない場合も前提とせずに未定義域の挙動へ洞察を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。