Skip to main content
QUICK REVIEW

[論文レビュー] Don't Decay the Learning Rate, Increase the Batch Size

Samuel Smith, Pieter-Jan Kindermans|arXiv (Cornell University)|Nov 1, 2017
Advanced Neural Network Applications参考文献 23被引用数 391
ひとこと要約

本論文は、固定学習率で訓練中にバッチサイズを増やすと、減衰する学習率スケジュールと同等の学習曲線とテスト精度を模倣でき、更新回数を減らした大規模バッチ訓練を可能にすることを示している。

ABSTRACT

It is common practice to decay the learning rate. Here we show one can usually obtain the same learning curve on both training and test sets by instead increasing the batch size during training. This procedure is successful for stochastic gradient descent (SGD), SGD with momentum, Nesterov momentum, and Adam. It reaches equivalent test accuracies after the same number of training epochs, but with fewer parameter updates, leading to greater parallelism and shorter training times. We can further reduce the number of parameter updates by increasing the learning rate $ε$ and scaling the batch size $B \propto ε$. Finally, one can increase the momentum coefficient $m$ and scale $B \propto 1/(1-m)$, although this tends to slightly reduce the test accuracy. Crucially, our techniques allow us to repurpose existing training schedules for large batch training with no hyper-parameter tuning. We train ResNet-50 on ImageNet to $76.1\%$ validation accuracy in under 30 minutes.

研究の動機と目的

  • SGDベースの最適化でなぜ学習率を減衰させるのかを動機づけ、理解する。
  • 学習曲線と汎化を一致させる代替案として、訓練中にバッチサイズを増やすことを提案し、検証する。
  • 大規模バッチ訓練が、最適化手法を問わず、より少ないパラメータ更新で同等のテスト精度を達成できることを示す。
  • 異なるアーキテクチャとハードウェアでCIFAR-10とImageNetで実践的なスケーラビリティの利点を示す。

提案手法

  • ノイズスケール g = ε(N/B − 1) を分析するために、SGD を確率微分方程式としてモデル化する。
  • 固定訓練エポック数に対して、学習率の減衰とバッチサイズの増加が同等であることを示す。
  • 学習率が α で減衰する場合にバッチサイズが増加するスケジュールを提案・検証する(ε が α で減衰するとき B ∝ α)。
  • モーメンタムの場合の有効学習率 ε_eff = ε/(1−m) を検討し、それに応じてバッチサイズを調整する。
  • CIFAR-10 の Wide ResNet と ImageNet の Inception-ResNet-V2 および ResNet-50/TPU で経験的に検証する。
  • 大規模バッチ訓練におけるモーメンタムの影響を評価し、蓄積ダイナミクスを論じる。

実験結果

リサーチクエスチョン

  • RQ1訓練中に固定学習率でバッチサイズを増やすことは、訓練ダイナミクスとテスト精度の両方に対して、減衰する学習率スケジュールの効果を再現できるか。
  • RQ2バッチサイズ、学習率、モーメンタムを調整することで、汎化を維持しつつパラメータ更新回数を最小化するのはどう相互作用するか。
  • RQ3一般的な最適化手法(SGD、モーメンタム、Nesterov、Adam)とアーキテクチャを横断した大規模バッチ訓練の実用的な限界と利点は何か。
  • RQ4これらの戦略はGPUとTPUでのImageNet規模訓練へどのように適用されるか。

主な発見

  • 訓練中のバッチサイズの増加は、SGD、モーメンタム付きSGD、Nesterovモーメンタム、Adam に対して、減衰する学習率スケジュールとほぼ同一のテスト精度をもたらす。
  • 学習率の減衰をバッチサイズの増加で置換すると、性能を維持しつつパラメータ更新の回数を削減できる。
  • より大きな学習率を用い、B ∝ ε または B ∝ 1/(1−m) のようにバッチサイズをスケーリングすると更新回数をさらに削減できるが、モーメンタム次第で精度にトレードオフが生じる。
  • CIFAR-10 では、減衰LR、ハイブリッド、増加-B スケジュールを比較した場合、学習曲線が同一になることを Wide ResNet の実験で示した。
  • ImageNet では、バッチ当たり 65,536 の大規模バッチ訓練で、Inception-ResNet-V2 で 2,500 未満の更新で検証精度 77–77.5%、ResNet-50 で 30 分未満の TPU で 76.1% を達成。
  • 大規模バッチ訓練は、追加のハイパーパラメータ調整なしで、実行時間を大幅に短縮できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。