QUICK REVIEW

[논문 리뷰] Adaptive Optimization via Momentum on Variance-Normalized Gradients

Francisco Patitucci, Aryan Mokhtari|arXiv (Cornell University)|2026. 02. 10.

Stochastic Gradient Optimization Techniques인용 수 0

한 줄 요약

MVN-Grad는 분산 기반 정규화와 정규화 후 모멘텀을 사용하는 Adam 스타일의 최적화기로, 낡은 모멘텀을 정규화기로부터 분리하여 업데이트를 더 안정적으로 만들고 비전 및 언어 벤치마크 전반에서 성능을 개선합니다.

ABSTRACT

We introduce MVN-Grad (Momentum on Variance-Normalized Gradients), an Adam-style optimizer that improves stability and performance by combining two complementary ideas: variance-based normalization and momentum applied after normalization. MVN-Grad scales each coordinate by an exponential moving average of gradient uncertainty and applies momentum to the resulting normalized gradients, eliminating the cross-time coupling between stale momentum and a stochastic normalizer present in standard Adam-type updates. We prove that this decoupling yields strictly smaller one-step conditional update variance than momentum-then-normalize variance methods under standard noise assumptions, and that MVN-Grad is robust to outliers: it has a uniformly bounded response to single gradient spikes. In low-variance regimes, we further show variance normalization avoids sign-type collapse associated with second-moment scaling and can yield accelerated convergence. Across CIFAR-100 image classification and GPT-style language modeling benchmarks, MVN-Grad matches or outperforms Adam, AdaBelief, and LaProp, delivering smoother training and improved generalization with no added overhead.

연구 동기 및 목표

Adam 계열 최적화기의 stochastic 학습에서 불안정성 및 일반화 한계를 동기로 삼고 해결한다.
모멘텀과 정규화기가 cross-time 결합을 감소시키도록 모멘텀을 정규화기에 분리하는 최적화기를 개발한다.
저잡음 환경에서 그래디언트 크기를 보존하기 위해 비초점화된 제2 모순 대신 분산 기반 정규화를 사용한다.
이론적 안정성, 이상치에 대한 강건성, 개선된 수렴 동작을 입증한다.
표준 벤치마크에 대한 이미지 분류 및 언어 모델링에서 MVN-Grad를 실증적으로 검증한다.

제안 방법

가설적 s_t = EMA of (g_t - m_t)^2의 분산 지표를 사용하여 그래디언트를 정규화하고, m_t를 그래디언트 EMA로 두는 MVN-Grad를 제안한다.
정규화된 그래디언트 z_t = g_t / (sqrt(s_t / c_v) + epsilon)에 모멘텀을 적용하고, 비정규화된 그래디언트가 아닌 z_t에 모멘텀을 적용한다.
정규화 방향의 바이어스 보정 모멘텀 u_t를 사용하고 x_t = x_{t-1} - eta * u_t / c_m으로 파라미터를 업데이트한다.
일반적인 노이즈 가정하에서 AdaBelief에 비해 한 단계 조건부 업데이트 분산이 감소한다는 이론적 결과를 제공한다.
그래디언트 급증에 대해 일관되게 경계가 있는 업데이트를 보이고, 낮은 분산 영역에서 부호 붕괴를 감소시키는 점을 논의한다.
정규화 선택(v_t 대 s_t)과 작동 순서(pre- 대 post-정규화)의 2x2 설계 공간에서 MVN-Grad를 위치시킨다.

실험 결과

연구 질문

RQ1난수 노이즈가 일반적인 경우에 분산 기반 정규화를 적용한 정규화-우선 모멘텀 방식이 모멘텀-우선 정규화 방법보다 한 단계의 업데이트 분산을 더 작게 만드는가?
RQ2MVN-Grad가 Adam 계열 방법에 비해 이상치 및 그래디언트 급등에 대해 강건한가?
RQ3저분산 학습 영역에서 분산 정규화가 그래디언트 크기를 보존하고 부호 붕괴를 피하는가?
RQ4MVN-Grad의 이론적 이점이 표준 비전 및 언어 모델링 벤치마크에서 실용적 이익으로 이어지는가?
RQ5CIFAR-100 및 GPT 스타일 언어 모델링 작업 전반에서 MVN-Grad가 Adam, AdaBelief 및 LaProp과 경험적으로 어떻게 비교되는가?

주요 결과

Optimizer	Test Accuracy (CIFAR-100, batch 128)	Train Accuracy (CIFAR-100, batch 128)	Test Accuracy (CIFAR-100, batch 1024)	Train Accuracy (CIFAR-100, batch 1024)
Adam	77.82%	75.65%	78.26%	83.15%
LaProp	77.72%	75.59%	78.40%	83.05%
AdaBelief	79.93%	81.22%	79.34%	85.89%
MVN-Grad	79.94%	81.26%	79.63%	85.89%

MVN-Grad는 명시된 가정 하에서 AdaBelief보다 한 단계 조건부 업데이트 분산을 엄격히 작게 만든다.
MVN-Grad는 큰 그래디언트 급증이 있는 상황에서도 업데이트가 균일하게 한정되어 스파이크 강건성을 입증한다.
저분산 영역에서 분산 기반 정규화는 부호 유형 붕괴를 피하고 그래디언트 크기 정보를 보존하여 더 빠른 수렴을 가능하게 한다.
실험적으로 MVN-Grad는 CIFAR-100에서 ResNet-18으로 Adam, AdaBelief, LaProp와 대등하거나 능가하며, 더 매끄러운 학습과 더 나은 일반화를 보인다.
CIFAR-100 배치 128에서 MVN-Grad는 테스트 정확도 79.94%, 학습 정확도 81.26%를 달성하였고 AdaBelief와 비슷한 수준이다; 배치 1024에서 MVN-Grad는 테스트 79.63%, 학습 85.89%로 AdaBelief보다 약간 높은 성능을 보인다.
언어 모델링 실험에서 MVN-Grad는 WikiText-103에서 최상의 평균 검증 perplexity를 보이고 OpenWebText 비교에서도 강력한 성능을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.