Skip to main content
QUICK REVIEW

[論文レビュー] Understanding AdamW through Proximal Methods and Scale-Freeness

Zhenxun Zhuang, Mingrui Liu|arXiv (Cornell University)|Jan 31, 2022
Neural Networks and Applications被引用数 36
ひとこと要約

この論文は AdamW が近傍更新の近似でありスケール不変であることを示し、特に非常に深いネットでバッチ正規化を用いない場合に AdamL2 よりも最適化上の利点を提供する。さらにスケール不変性を条件づまりの低減と結びつけて説明している。

ABSTRACT

Adam has been widely adopted for training deep neural networks due to less hyperparameter tuning and remarkable performance. To improve generalization, Adam is typically used in tandem with a squared $\ell_2$ regularizer (referred to as Adam-$\ell_2$). However, even better performance can be obtained with AdamW, which decouples the gradient of the regularizer from the update rule of Adam-$\ell_2$. Yet, we are still lacking a complete explanation of the advantages of AdamW. In this paper, we tackle this question from both an optimization and an empirical point of view. First, we show how to re-interpret AdamW as an approximation of a proximal gradient method, which takes advantage of the closed-form proximal mapping of the regularizer instead of only utilizing its gradient information as in Adam-$\ell_2$. Next, we consider the property of "scale-freeness" enjoyed by AdamW and by its proximal counterpart: their updates are invariant to component-wise rescaling of the gradients. We provide empirical evidence across a wide range of deep learning experiments showing a correlation between the problems in which AdamW exhibits an advantage over Adam-$\ell_2$ and the degree to which we expect the gradients of the network to exhibit multiple scales, thus motivating the hypothesis that the advantage of AdamW could be due to the scale-free updates.

研究の動機と目的

  • デコップルドウェイトデケイ(AdamW)が Adam with L2 正則化(Adam-L2)より一般化と最適化を改善する理由を動機づけ、理解する。
  • AdamW を近傍更新へ接続する近傍最適化の視点を提供し、スケール不変性を活用して経験的利益を説明する。
  • 特に Batch Normalization を用いない非常に深いネットワークなど、AdamW が Adam-L2 を顕著に上回る訓練シナリオを経験的に特定する。
  • 実務的な非零 epsilon における AdamW のスケール不変性の頑健性を検証し、それを深層ネットワークの更新挙動と関連づける。

提案手法

  • AdamW が正則化項 F(x) = (λ/2)||x||^2 + f(x) の近傍更新の近似であることを導出し提示する。
  • AdamW が M_t = η_t I_d および p_t = α m̂_t/(√v̂_t+ε) を用いた近傍更新の一次近似に対応することを示す。
  • ε=0 のとき AdamW と近傍更新はスケール不変であるのに対し、λ>0 でも Adam-L2 はスケール不変性を失うことを証明する。
  • スケール不変性が自動的な前処理をもたらし、特定の関数クラスに対する条件数依存性を改善するという理論的根拠を提供する。
  • BN が欠如したネットワークで損失をスケーリングし、更新の安定性を観察することによりスケール不変性を経験的に検証する。
  • ResNet および DenseNet アーキテクチャを用いて CIFAR-10/100 上で Batch Normalization の有無で AdamW、AdamProx、Adam-L2 を比較する。

実験結果

リサーチクエスチョン

  • RQ1AdamW は正則化された目的関数の近傍更新として機能するのか、もしそうならどのような近似の下でそうなのか。
  • RQ2スケール不変性が AdamW の最適化挙動と収束にどのように影響し、Adam-L2 と比較してどうなるのか。
  • RQ3どの訓練設定(例:Batch Normalization を用いない非常に深いネットワーク)で AdamW が Adam-L2 を上回るのか、そしてその理由は何か。
  • RQ4ε が非零のとき実践的に AdamW は概ねスケール不変性を保つのか、またこの性質はどれほど頑健か。
  • RQ5一般的な学習率スケジュールに対して AdamW と AdamProx は似たような最適化ダイナミクスを示すのか。

主な発見

  • AdamW は正則化項全体を用いた近傍更新の近似であり、勾配だけでなく正則化を完全に利用する。
  • AdamW と近傍更新は ε≈0 でスケール不変だが、Adam-L2 は λ>0 の場合にスケール不変性を失う。
  • スケール不変性は自動的な前処理を提供し、特定の関数に対して条件数の影響を低減する。
  • Batch Normalization がない場合、深いネットワークで AdamW は訓練・検証の両方で Adam-L2 を大きく上回る。
  • ネットワークの深さが増すにつれて、Adam-L2 の更新スケールは AdamW よりも多様化し、AdamW の方が精度向上が大きい。
  • 典型的な学習率スケジュールに対して AdamW はほぼ AdamProx に等価であり、近傍解釈を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。