Skip to main content
QUICK REVIEW

[논문 리뷰] Why Adam Works Better with $β_1 = β_2$: The Missing Gradient Scale Invariance Principle

Alberto Fernández-Hernández, Cristian Pérez-Corral|arXiv (Cornell University)|2026. 01. 29.
Stochastic Gradient Optimization Techniques인용 수 0
한 줄 요약

본 논문은 Adam이 β1 = β2일 때에만 일阶(First-order) 그라디언트 스케일 불변성을 가지며, 이것이 더 매끄럽고 안정적인 업데이트로 이어짐을 보이고, 시각/언어 작업 전반의 실험으로 이를 뒷받침한다.

ABSTRACT

Adam has been at the core of large-scale training for almost a decade, yet a simple empirical fact remains unaccounted for: both validation scores and the qualitative behaviour of the training runs improve when the momentum parameters satisfy $β_{1}=β_{2}$. Some recent studies have reported this pattern, but there is still no explanation for why this choice helps. We show that this choice is closely tied to a structural property that we refer to as extit{gradient scale invariance}. We formalize this notion and prove that Adam becomes gradient scale invariant of first order if and only if $β_{1}=β_{2}$. This perspective places the balanced regime of Adam in direct alignment with the design principles underlying several recent optimizers that explicitly enforce scale-robust updates. The theory is supported by experiments across vision and language tasks, and across different architectural families, in which rescaling the gradient has a markedly smoother effect on the update when $β_{1}=β_{2}$. Overall, our results offer a coherent explanation for an open question in the behavior of Adam and provide a simple principle that helps guide the design of future optimizers.

연구 동기 및 목표

  • β1 = β2로 묶는 것이 Adam의 안정성과 성능을 왜 개선하는지 이해를 촉진한다.
  • 그라디언트 스케일 불변성을 Adam의 업데이트와 관련된 구조적 특성으로 형식화한다.
  • Adam이 정확히 β1 = β2일 때 1차그라디언트 스케일 불변성을 달성한다는 것을 보인다.
  • 이론적 및 실증 분석을 통해 Balanced Adam을 현대의 스케일-강건 최적화기 설계와 연결한다.

제안 방법

  • 업데이트 규칙에 대한 정의를 도입하고 그라디언트 스케일 불변성의 개념을 formal하게 정의한다.
  • 연속-시간 Adam 흐름을 이산 업데이트에서 도출하여 그라디언트 스케일 의존성을 분석한다.
  • 그라디언트 드리프트 δ(t)에 대한 m, v, 그리고 정규화된 업데이트 R의 1차 전개를 수행한다.
  • Adam이 일阶(1st-order) 그라디언트 스케일 불변성을 가지려면 필요충분하게 τ1 = τ2, 동치로 β1 = β2임을 prove한다.
  • 시뮬레이션 실험과 시각 및 언어 모델의 실제 학습에서 이론을 검증한다(여러 아키텍처와 데이터셋).
  • 업데이트 노름의 진동을 통해 업데이트의 안정성을 정량화하고 β1, β2 구성 간 비교를 수행한다.
Figure 1 : Evolution of $\|\mathbf{R}_{k}\|$ in Adam for $\beta_{1}=\beta_{2}$ .
Figure 1 : Evolution of $\|\mathbf{R}_{k}\|$ in Adam for $\beta_{1}=\beta_{2}$ .

실험 결과

연구 질문

  • RQ1β1과 β2를 묶는 것이(β1 = β2) Adam의 업데이트를 왜 안정시키고 across tasks에서 성능을 향상시키는가?
  • RQ2β1 ≠ β2일 때 그라디언트 스케일이 Adam의 업데이트에 어떻게 영향을 주며, 어떠한 조건에서 1차 스케일 불변성이 성립하는가?
  • RQ3그라디언트 스케일 불변성의 개념이 실제로 관찰되는 새로운 스케일-강건 최적화기와 Adam을 통합하는가?
  • RQ4다양한 아키텍처에서 학습 다이나믹스에 나타나는 1차 그라디언트 스케일 불변성의 실증적 징후는 무엇인가?

주요 결과

  • Adam은 β1 = β2(연속 시간 흐름의 경우 τ1 = τ2)일 때에만 1차 그라디언트 스케일 불변성을 가진다.
  • β1 = β2일 때 업데이트의 그라디언트 크기에 대한 선도적 의존성이 사라져, 그라디언트 방향에 의해 구동되는 더 안정적인 업데이트를 얻는다.
  • 시뮬레이션 및 실제 모델 실험에서 시각 및 언어 과제 전반에서 β1 = β2일 때 업데이트 노름의 더 매끄러운 변화와 진동 감소를 확인했다.
  • 다양한 아키텍처/데이터셋에 대한 경험적 진동 분석은 β1 = β2의 대각선이 업데이트 진동을 유의하게 최소화함을 보여준다.
  • 결과는 균형잡힌 Adam을 스케일-강건 최적화기들에 속하는 넓은 맥락에 위치시키고 향후 방법의 원칙적 설계 지침을 제공한다.
Figure 2 : Evolution of $\|\mathbf{R}_{k}\|$ in Adam for $\beta_{1}\neq\beta_{2}$ .
Figure 2 : Evolution of $\|\mathbf{R}_{k}\|$ in Adam for $\beta_{1}\neq\beta_{2}$ .

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.