QUICK REVIEW

[論文レビュー] Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models

Xingyu Xie, Pan Zhou|arXiv (Cornell University)|Aug 13, 2022

Advanced Neural Network Applications被引用数 63

ひとこと要約

Adan は Nesterov momentum estimation (NME) を導入し、一次および二次勾配モーメントを適応的に推定し、非凸 stochastic 最適化で収束を速め、視覚、言語、RLタスク全般で堅牢な性能を発揮します。

ABSTRACT

In deep learning, different kinds of deep networks typically need different optimizers, which have to be chosen after multiple trials, making the training process inefficient. To relieve this issue and consistently improve the model training speed across deep networks, we propose the ADAptive Nesterov momentum algorithm, Adan for short. Adan first reformulates the vanilla Nesterov acceleration to develop a new Nesterov momentum estimation (NME) method, which avoids the extra overhead of computing gradient at the extrapolation point. Then, Adan adopts NME to estimate the gradient's first- and second-order moments in adaptive gradient algorithms for convergence acceleration. Besides, we prove that Adan finds an $ε$-approximate first-order stationary point within $\mathcal{O}(ε^{-3.5})$ stochastic gradient complexity on the non-convex stochastic problems (e.g., deep learning problems), matching the best-known lower bound. Extensive experimental results show that Adan consistently surpasses the corresponding SoTA optimizers on vision, language, and RL tasks and sets new SoTAs for many popular networks and frameworks, e.g., ResNet, ConvNext, ViT, Swin, MAE, DETR, GPT-2, Transformer-XL, and BERT. More surprisingly, Adan can use half of the training cost (epochs) of SoTA optimizers to achieve higher or comparable performance on ViT, GPT-2, MAE, etc., and also shows great tolerance to a large range of minibatch size, e.g., from 1k to 32k. Code is released at https://github.com/sail-sg/Adan, and has been used in multiple popular deep learning frameworks or projects.

研究の動機と目的

多様な深層アーキテクチャ全体で一貫して学習を高速化する最適化アルゴリズムの必要性を動機づける。
追加の勾配外挿オーバーヘッドなしに Nesterov momentum と適応的勾配法を組み合わせた効率的な最適化アルゴリズムを開発する。
視覚、言語、RL タスク全体で理論的収束保証と実証的証拠を提供する。
適応正則化とデカップルドウェイト減衰が実践的に一般化を改善することを示す。

提案手法

現在点で勾配を計算し、追加コストなしで外挿を模倣する補正勾配代理を構築する Nesterov momentum estimation (NME) を提案する。
gk' = gk + (1-β1)(gk−gk−1) を用いて一次・二次モーメントの更新を定義し、m_k と n_k を用いた Adam 風の更新へ組み込む。
動的正則化子 Fk' を含む重み付きノルムを含む第一オーダー近似を最小化する、近接インスパイア型で、デカップルド正則化ステップを導入する。
アルゴリズムの詳細（Algorithm 1）を提供し、モーメントを安定化させ、実践的な収束を実現するためのリスタート条件を含める。

実験結果

リサーチクエスチョン

RQ1Adan の NME は非凸確率的問題において既存の Adam 種オプティマイザより高速な収束を提供できるか？
RQ2リップシッツ勾配・ヘシアン仮定の下で、Adan は確率的勾配の計算複雑性の理論的下界を達成または近づけるか？
RQ3Adan は大規模ミニバッチ領域やさまざまなデータセット規模を含む、多様なアーキテクチャと学習設定に対して堅牢か？
RQ4デカップルドウェイトデケイ（AdamW 形式）は Adan と組み合わせて一般化を改善するか？
RQ5視覚、NLP、および RL ベンチマークで、SoTA 最適化器と比較して Adan はどのように性能を示すか？

主な発見

Adan は ε-近似の一階点に対して確率的勾配計算の複雑さ O(c∞^2.5 ε^-4) を達成し、定数を除けば既知の下界に一致する。
リップシッツヘシアンの下で、リスタートを用いる Adan は O(c∞^1.25 ε^-3.5) の複雑さを達成し、下界と一致するとともに従来法より改善。
経験的には、Adan は視覚、言語、RL タスク全般で SoTA 最適化器を一貫して上回り、複数のアーキテクチャで約半分のエポック数でより高いまたは同等の性能を達成する。
Adan は広範なミニバッチサイズ（例：1k から 32k）に対して頑健で、ViT、GPT-2、MAE などのモデル間でスケールする。
この手法はデカップルドウェイトデケイ（AdamW風）とシームレスに統合され、一般化が改善される。
理論的結果は大きなモーメントの超パラメータを必要とせず、β1, β2 が小さい実践的な学習設定と一致する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。