QUICK REVIEW

[논문 리뷰] Adam Converges Without Any Modification On Update Rules

Y. Q. Zhang, Bingran Li|arXiv (Cornell University)|2026. 03. 02.

Stochastic Gradient Optimization Techniques인용 수 0

한 줄 요약

논문은 문제 의존적 하이퍼파라미터 선택 시 vanilla Adam이 수렴한다는 것을 증명하고, beta1–beta2 상전이와 배치 크기 의존성을 밝히며 실용적 튜닝 지침을 제공한다.

ABSTRACT

Adam is the default algorithm for training neural networks, including large language models (LLMs). However, \citet{reddi2019convergence} provided an example that Adam diverges, raising concerns for its deployment in AI model training. We identify a key mismatch between the divergence example and practice: \citet{reddi2019convergence} pick the problem after picking the hyperparameters of Adam, i.e., $(β_1,β_2)$; while practical applications often fix the problem first and then tune $(β_1,β_2)$. In this work, we prove that Adam converges with proper problem-dependent hyperparameters. First, we prove that Adam converges when $β_2$ is large and $β_1 < \sqrt{β_2}$. Second, when $β_2$ is small, we point out a region of $(β_1,β_2)$ combinations where Adam can diverge to infinity. Our results indicate a phase transition for Adam from divergence to convergence when changing the $(β_1, β_2)$ combination. To our knowledge, this is the first phase transition in $(β_1,β_2)$ 2D-plane reported in the literature, providing rigorous theoretical guarantees for Adam optimizer. We further point out that the critical boundary $(β_1^*, β_2^*)$ is problem-dependent, and particularly, dependent on batch size. This provides suggestions on how to tune $β_1$ and $β_2$: when Adam does not work well, we suggest tuning up $β_2$ inversely with batch size to surpass the threshold $β_2^*$, and then trying $β_1< \sqrt{β_2}$. Our suggestions are supported by reports from several empirical studies, which observe improved LLM training performance when applying them.

연구 동기 및 목표

고정된 문제에서 Adam의 실용적 성공과 고전적 발산 결과 사이의 차이를 동기 부여한다.
업데이트 규칙을 바꾸지 않고 vanilla Adam이 수렴하는 조건을 확립한다.
beta1–beta2 평면에서 발산-수렴 상전이를 특성화한다.
수렴이 배치 크기에 의존하고 실무자를 위한 튜닝 지침을 제공한다.

제안 방법

재샘플링 두 가지 방식에서 Adam 분석: 교체 있는 샘플링(with-replacement)과 무작위 셔플링(Random shuffling).
Theorem 3.1(교체 있음) 및 Theorem 3.3(무작위 셔플링)을 통해 임의의 문제 클래스 F_L,D0,D1^n에 대한 비점근적 수렴 결과를 도출한다.
큰 beta2와 beta1 < sqrt(beta2)가 수렴을 실현 가능 지점으로 또는 근방으로 이끈다는 것을 보인다.
작은 beta2에 대한 발산 영역과 문제 의존 경계 beta1*, beta2*를 제시한다.
1/sqrt(v_k) 주변의 집중 분석을 통해 경계조건 없이 무한대 그래디언트를 다룬다.
문제를 고정하고 beta1,beta2를 선택하기 전과 비교하고 문제 클래스 및 배치 크기에 의존하는 상전이를 밝힘으로써 Reddi et al. (2018)와 비교한다.

(a) Divergent region claimed by (Reddi et al. , 2018 )

실험 결과

연구 질문

RQ1고정된 문제에서 적절히 선택된 하이퍼파라미터로 업데이트 규칙을 수정하지 않고 vanilla Adam이 수렴할 수 있는가?
RQ2유한 합 ERM 문제에서 beta1과 beta2가 Adam의 수렴/발산 영역에 어떻게 영향을 미치는가?
RQ3beta1–beta2 평면에 수렴과 발산을 구분하는 상전이가 존재하는가?
RQ4배치 크기와 문제 클래스 매개변수가 수렴의 임계 경점에 어떤 영향을 미치는가?
RQ5beta1, beta2를 배치 크기 및 문제 클래스와 결합한 이론에서 어떤 실용적 튜닝 지침이 도출되는가?

주요 결과

수렴 영역이 있다: 0 ≤ beta1 < sqrt(beta2) < 1이고 beta2가 문제 의존 임계치를 넘으면 Adam은 수렴점(실현 가능)으로 또는 그 근방(비실현 가능)으로 수렴한다.
발산 영역: 작은 beta2의 경우 문제 클래스 인스턴스에서 Adam이 무한대로 발산하는 경우가 있으며 경계는 미니배치 수 n이 커짐에 따라 확장된다(즉, 배치 크기가 작아질수록).
beta1–beta2 평면에 발산과 수렴을 구분하는 상전이가 존재하며 경계는 문제 클래스와 배치 크기에 의존한다.
임계 경계(beta1*, beta2*)는 문제 의존적이며 배치 크기에 반비례적으로 증가하므로 더 작은 배치일수록 더 큰 beta2가 필요하다.
큰 beta2는 배치 크기에 맞춰 beta2를 조정할 때 LLM 사전 학습에서 실질적으로 향상된 훈련과 일치한다; beta2가 충분히 큰 경우 beta1을 sqrt(beta2) 아래로 조정하는 것을 권장한다.
이 분석은 두 가지 샘플링 방식(with-replacement 및 random shuffling)을 다루고 경계가 무한대 그래디언트를 가정하지 않으므로 무한 그래디언트 동작에 대한 통찰을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.