[論文レビュー] An Exponential Learning Rate Schedule for Deep Learning
提案論文は、重み減衰とモーメンタムを備えたBN対応ネットワークにおいて、指数関数的に増加する学習率が標準のBN+SGDのダイナミクスを模倣できることを証明し、WDと指数LRの厳密な同値性を、多相的スケジュールを含めて提供します。
Intriguing empirical evidence exists that deep learning can work well with exoticschedules for varying the learning rate. This paper suggests that the phenomenon may be due to Batch Normalization or BN, which is ubiquitous and provides benefits in optimization and generalization across all standard architectures. The following new results are shown about BN with weight decay and momentum (in other words, the typical use case which was not considered in earlier theoretical analyses of stand-alone BN. 1. Training can be done using SGD with momentum and an exponentially increasing learning rate schedule, i.e., learning rate increases by some $(1 +α)$ factor in every epoch for some $α>0$. (Precise statement in the paper.) To the best of our knowledge this is the first time such a rate schedule has been successfully used, let alone for highly successful architectures. As expected, such training rapidly blows up network weights, but the net stays well-behaved due to normalization. 2. Mathematical explanation of the success of the above rate schedule: a rigorous proof that it is equivalent to the standard setting of BN + SGD + StandardRate Tuning + Weight Decay + Momentum. This equivalence holds for other normalization layers as well, Group Normalization, LayerNormalization, Instance Norm, etc. 3. A worked-out toy example illustrating the above linkage of hyper-parameters. Using either weight decay or BN alone reaches global minimum, but convergence fails when both are used.
研究の動機と目的
- 深層ネットのバッチ正規化および正規化層と学習率スケジュールがどのように相互作用するかを動機づける。
- 指数学習率スケジュールが、スケール不変目的関数の下でSGD with momentumにおける重み減衰の効果を模倣できることを示す。
- SGD with weight decayと指数LRスケジュールの正式な同等性を、正規化スキームを超えて提供する。
- 標準的な実践であるステップ減衰などに関連する多相およびテーパー付き指数LRスケジュールを説明する。
- toy 例とCNN/ResNet実験を通じて影響を実証する。
提案手法
- 本論文の定義1.2に従って、モーメンタムと重み減衰を用いた SGD を定義する。
- 状態と写像の同型性によって、WDを用いた勾配降下が指数LRを用いた勾配降下と同値であることを示す形式的な写像を構築する(定理2.1)。
- モーメンタムを有する SGD への同値性を拡張する(定理2.9)。
- 多相LRスケジュールへ一般化し、先細り指数LRを導出する(定理2.12)。
- Step Decayの軌道に密接に一致するLRスケジュールとしてTEXP++を導入する(定理2.13)。
- WDとBNの相互作用と、両方を用いた場合の非収束を示す toy 例を用いる。
実験結果
リサーチクエスチョン
- RQ1本論文が検討する2〜5件の具体的な研究問い。
主な発見
- 定理1.1の非形式的な説明は、スケール不変な目的を持つ SGD と WD が、特定の条件下でモーメンタムと指数LRスケジュールを用いる SGD に再表現できることを示す。
- 定理2.9は、モーメンタムが存在する場合でもWDを用いたGDがExp LRを用いたGDと同値であることを示す。
- 定理2.12は、相の開始時のモーメント補正を通じて、モーメント付きでWDなしのStep Decayの軌道に一致する先細り指数LRスケジュール(TEXP)を導入する。
- 定理2.13は、TEXP++をWDを用いたStep Decayと同じ機能空間のネットワーク列を生じさせるLRスキームとして提示し、相境界での厳密なモーメント補正を必要としない。
- toy例は、BN単独とWD単独のそれぞれが収束をもたらす可能性がある一方で、BNとWDを併用すると小さな訓練誤差への収束を妨げることがあることを示し、それらの密接不可分な相互作用を明らかにする。
- CNN/ResNet に関する実験は、指数LRの概念を検証し、実践的には従来のスケジュールと比べて改善または同等な軌道を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。