Skip to main content
QUICK REVIEW

[논문 리뷰] Adaptive Optimization via Momentum on Variance-Normalized Gradients

Francisco Patitucci, Aryan Mokhtari|arXiv (Cornell University)|2026. 02. 10.
Stochastic Gradient Optimization Techniques인용 수 0
한 줄 요약

MVN-Grad는 분산 기반 정규화와 정규화 후 모멘텀을 사용하는 Adam 스타일의 최적화기로, 낡은 모멘텀을 정규화기로부터 분리하여 업데이트를 더 안정적으로 만들고 비전 및 언어 벤치마크 전반에서 성능을 개선합니다.

ABSTRACT

We introduce MVN-Grad (Momentum on Variance-Normalized Gradients), an Adam-style optimizer that improves stability and performance by combining two complementary ideas: variance-based normalization and momentum applied after normalization. MVN-Grad scales each coordinate by an exponential moving average of gradient uncertainty and applies momentum to the resulting normalized gradients, eliminating the cross-time coupling between stale momentum and a stochastic normalizer present in standard Adam-type updates. We prove that this decoupling yields strictly smaller one-step conditional update variance than momentum-then-normalize variance methods under standard noise assumptions, and that MVN-Grad is robust to outliers: it has a uniformly bounded response to single gradient spikes. In low-variance regimes, we further show variance normalization avoids sign-type collapse associated with second-moment scaling and can yield accelerated convergence. Across CIFAR-100 image classification and GPT-style language modeling benchmarks, MVN-Grad matches or outperforms Adam, AdaBelief, and LaProp, delivering smoother training and improved generalization with no added overhead.

연구 동기 및 목표

  • Adam 계열 최적화기의 stochastic 학습에서 불안정성 및 일반화 한계를 동기로 삼고 해결한다.
  • 모멘텀과 정규화기가 cross-time 결합을 감소시키도록 모멘텀을 정규화기에 분리하는 최적화기를 개발한다.
  • 저잡음 환경에서 그래디언트 크기를 보존하기 위해 비초점화된 제2 모순 대신 분산 기반 정규화를 사용한다.
  • 이론적 안정성, 이상치에 대한 강건성, 개선된 수렴 동작을 입증한다.
  • 표준 벤치마크에 대한 이미지 분류 및 언어 모델링에서 MVN-Grad를 실증적으로 검증한다.

제안 방법

  • 가설적 s_t = EMA of (g_t - m_t)^2의 분산 지표를 사용하여 그래디언트를 정규화하고, m_t를 그래디언트 EMA로 두는 MVN-Grad를 제안한다.
  • 정규화된 그래디언트 z_t = g_t / (sqrt(s_t / c_v) + epsilon)에 모멘텀을 적용하고, 비정규화된 그래디언트가 아닌 z_t에 모멘텀을 적용한다.
  • 정규화 방향의 바이어스 보정 모멘텀 u_t를 사용하고 x_t = x_{t-1} - eta * u_t / c_m으로 파라미터를 업데이트한다.
  • 일반적인 노이즈 가정하에서 AdaBelief에 비해 한 단계 조건부 업데이트 분산이 감소한다는 이론적 결과를 제공한다.
  • 그래디언트 급증에 대해 일관되게 경계가 있는 업데이트를 보이고, 낮은 분산 영역에서 부호 붕괴를 감소시키는 점을 논의한다.
  • 정규화 선택(v_t 대 s_t)과 작동 순서(pre- 대 post-정규화)의 2x2 설계 공간에서 MVN-Grad를 위치시킨다.

실험 결과

연구 질문

  • RQ1난수 노이즈가 일반적인 경우에 분산 기반 정규화를 적용한 정규화-우선 모멘텀 방식이 모멘텀-우선 정규화 방법보다 한 단계의 업데이트 분산을 더 작게 만드는가?
  • RQ2MVN-Grad가 Adam 계열 방법에 비해 이상치 및 그래디언트 급등에 대해 강건한가?
  • RQ3저분산 학습 영역에서 분산 정규화가 그래디언트 크기를 보존하고 부호 붕괴를 피하는가?
  • RQ4MVN-Grad의 이론적 이점이 표준 비전 및 언어 모델링 벤치마크에서 실용적 이익으로 이어지는가?
  • RQ5CIFAR-100 및 GPT 스타일 언어 모델링 작업 전반에서 MVN-Grad가 Adam, AdaBelief 및 LaProp과 경험적으로 어떻게 비교되는가?

주요 결과

OptimizerTest Accuracy (CIFAR-100, batch 128)Train Accuracy (CIFAR-100, batch 128)Test Accuracy (CIFAR-100, batch 1024)Train Accuracy (CIFAR-100, batch 1024)
Adam77.82%75.65%78.26%83.15%
LaProp77.72%75.59%78.40%83.05%
AdaBelief79.93%81.22%79.34%85.89%
MVN-Grad79.94%81.26%79.63%85.89%
  • MVN-Grad는 명시된 가정 하에서 AdaBelief보다 한 단계 조건부 업데이트 분산을 엄격히 작게 만든다.
  • MVN-Grad는 큰 그래디언트 급증이 있는 상황에서도 업데이트가 균일하게 한정되어 스파이크 강건성을 입증한다.
  • 저분산 영역에서 분산 기반 정규화는 부호 유형 붕괴를 피하고 그래디언트 크기 정보를 보존하여 더 빠른 수렴을 가능하게 한다.
  • 실험적으로 MVN-Grad는 CIFAR-100에서 ResNet-18으로 Adam, AdaBelief, LaProp와 대등하거나 능가하며, 더 매끄러운 학습과 더 나은 일반화를 보인다.
  • CIFAR-100 배치 128에서 MVN-Grad는 테스트 정확도 79.94%, 학습 정확도 81.26%를 달성하였고 AdaBelief와 비슷한 수준이다; 배치 1024에서 MVN-Grad는 테스트 79.63%, 학습 85.89%로 AdaBelief보다 약간 높은 성능을 보인다.
  • 언어 모델링 실험에서 MVN-Grad는 WikiText-103에서 최상의 평균 검증 perplexity를 보이고 OpenWebText 비교에서도 강력한 성능을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.