QUICK REVIEW

[논문 리뷰] Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models

Xingyu Xie, Pan Zhou|arXiv (Cornell University)|2022. 08. 13.

Advanced Neural Network Applications인용 수 63

한 줄 요약

Adan은 Nesterov 모멘텀 추정(NME)을 도입하여 1차 및 2차 기울기 모먼트를 적응적으로 추정하고, 비볼록 확률적 최적화에서 더 빠른 수렴을 달성하며 비전, 언어, RL 과제 전반에서 강건한 성능을 보인다.

ABSTRACT

In deep learning, different kinds of deep networks typically need different optimizers, which have to be chosen after multiple trials, making the training process inefficient. To relieve this issue and consistently improve the model training speed across deep networks, we propose the ADAptive Nesterov momentum algorithm, Adan for short. Adan first reformulates the vanilla Nesterov acceleration to develop a new Nesterov momentum estimation (NME) method, which avoids the extra overhead of computing gradient at the extrapolation point. Then, Adan adopts NME to estimate the gradient's first- and second-order moments in adaptive gradient algorithms for convergence acceleration. Besides, we prove that Adan finds an $ε$-approximate first-order stationary point within $\mathcal{O}(ε^{-3.5})$ stochastic gradient complexity on the non-convex stochastic problems (e.g., deep learning problems), matching the best-known lower bound. Extensive experimental results show that Adan consistently surpasses the corresponding SoTA optimizers on vision, language, and RL tasks and sets new SoTAs for many popular networks and frameworks, e.g., ResNet, ConvNext, ViT, Swin, MAE, DETR, GPT-2, Transformer-XL, and BERT. More surprisingly, Adan can use half of the training cost (epochs) of SoTA optimizers to achieve higher or comparable performance on ViT, GPT-2, MAE, etc., and also shows great tolerance to a large range of minibatch size, e.g., from 1k to 32k. Code is released at https://github.com/sail-sg/Adan, and has been used in multiple popular deep learning frameworks or projects.

연구 동기 및 목표

다양한 딥 아키텍처 전반에서 훈련 속도를 지속적으로 높이는 옵티마이저의 필요성에 대한 모티베이션.
추가 그래디언트 외삽 오버헤드 없이 Nesterov 모멘텀과 적응형 그래디언트 방법을 결합한 효율적인 옵티마이저 개발.
비전, 언어, RL 과제에 걸친 이론적 수렴 보장 및 실험적 증거 제공.
실전에서 일반화 성능을 향상시키는 적응적 규제 및 분리된 가중치 감소의 효과 제시

제안 방법

현재 지점에서 기울기를 계산하고 보정된 그래디언트 대리변수를 구성하여 추가 비용 없이 외삽을 모방하는 Nesterov 모멘텀 추정(NME)을 제안한다.
gk' = gk + (1-β1)(gk−gk−1)을 사용하여 1차 및 2차 모멘트 업데이트를 정의하고 m_k 및 n_k와 함께 Adam 형 업데이트에 통합한다.
첫 차수 근사와 동적 규제 Fk'를 포함하는 가중 규范의 가중 노름을 포함하는 분리된 규제 단계를 도입하여 최소화한다.
실용적 수렴을 가능하게 하고 모멘텀을 안정화하기 위한 재시작 조건을 포함하는 알고리즘적 상세 정보(Algorithm 1)

실험 결과

연구 질문

RQ1Adan의 NME가 비볼록 확률 문제에서 기존 Adam-형 옵티마이저보다 더 빠른 수렴을 제공하는가?
RQ2Lipschitz 기울기 및 해시안 가정하에서 확률적 그래디언트 복잡도에 대한 이론적 하한선에 도달하거나 근접하는가?
RQ3대규모 미니배치 구간 및 다양한 데이터셋 규모를 포함한 다양한 아키텍처 및 훈련 설정에서 Adan이 견고한가?
RQ4AdamW와 같은 분리된 가중치 감소가 Adan과 결합되어 일반화에 효과적인가?
RQ5비전, NLP 및 RL 벤치마크에서 Adan의 성능은 SoTA 옵티마이저와 어떻게 비교되는가?

주요 결과

Adan은 ε-근사 1차 포인트에 대해 O(c∞^2.5 ε^-4)의 확률적 그래디언트 복잡도를 달성하여 상수 차이를 제외하고 알려진 더 낮은 바운드와 일치한다.
Lipschitz 해시안하에서 재시작과 함께 Adan은 O(c∞^1.25 ε^-3.5) 복잡도에 도달하며, 하한선과 정렬되고 여러 선행 방법에 비해 개선된다.
실험적으로 Adan은 비전, 언어, RL 과제에서 일관되게 SoTA 옵티마이저를 능가하거나 동등한 성능을 달성하며, 여러 아키텍처에서 에폭당 훈련 비용이 대략 절반 수준으로 증가시켜 더 높은 성능을 달성한다.
Adan은 ViT, GPT-2, MAE 등과 같은 모델에서 1k부터 32k까지 다양한 미니배치 크기에 대해 강건하게 작동하고 잘 확장된다.
분리된 가중치 감소(AdamW 스타일)와의 원활한 통합으로 일반화가 향상된다.
대부분의 모멘텀 하이퍼파라미터가 큰 값일 필요가 없고 β1, β2가 작아도 실제 훈련 설정과 일치한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.