[論文レビュー] Measuring the Effects of Data Parallelism on Neural Network Training
この論文は、バッチサイズ(データ並列性)が、さまざまなワークロードに渡って目標とするアウトオブサンプル誤差を達成するために必要な訓練ステップ数に与える影響を実験的に特徴づけ、大きなばらつきと、より大きなバッチによるアウトオブサンプル性能の一貫した劣化は見られないことを明らかにする。一方で、 regime-dependent な利点とメタパラメータ調整の役割を強調する。
Recent hardware developments have dramatically increased the scale of data parallelism available for neural network training. Among the simplest ways to harness next-generation hardware is to increase the batch size in standard mini-batch neural network training algorithms. In this work, we aim to experimentally characterize the effects of increasing the batch size on training time, as measured by the number of steps necessary to reach a goal out-of-sample error. We study how this relationship varies with the training algorithm, model, and data set, and find extremely large variation between workloads. Along the way, we show that disagreements in the literature on how batch size affects model quality can largely be explained by differences in metaparameter tuning and compute budgets at different batch sizes. We find no evidence that larger batch sizes degrade out-of-sample performance. Finally, we discuss the implications of our results on efforts to train neural networks much faster in the future. Our experimental data is publicly available as a database of 71,638,836 loss measurements taken over the course of training for 168,160 individual models across 35 workloads.
研究の動機と目的
- バッチサイズが、目標となるアウトオブサンプル誤差を達成するために必要な訓練ステップ数とどのように関連するかを定量化する。
- モデル、データセット、訓練アルゴリズムを跨いだバッチサイズ–訓練ステップ関係を支配する要因を特定する。
- より大きなバッチサイズが現実的なワークロードでアウトオブサンプル性能にコストを課すかどうかを評価する。
- メタパラメータ(学習率、モーメント、スケジュール)がバッチサイズに応じてどのように調整されるべきかを調査し、先行研究の不整合を説明する。
提案手法
- 同期データ並列ミニバッチ SGD のバリエーション(SGD、モーメント付き SGD、Nesterov モーメント)を研究する。
- 6つのモデルファミリ、3つの訓練アルゴリズム、7つのデータセットを横断してバッチサイズの影響を特徴づける。
- 固定ヒューリスティクスを仮定するのではなく、各バッチサイズごとに学習率、モーメント、学習率スケジュールを独立に調整する。
- 訓練ステップ数の観点から訓練コストを分析し、168,160モデルにわたる71,638,836の損失測定を含む公開データ資源を報告する。
- 再現可能な実験プロトコルを提供し、プロットと結果の再現を促進するデータセットを公開する。
実験結果
リサーチクエスチョン
- RQ1バッチサイズと、あるアウトオブサンプル誤差を達成するために必要な訓練ステップ数との関係はどうなるか?
- RQ2このバッチサイズ–訓練ステップ関係を、ワークロード(モデル、データセット、アルゴリズム)を跨いで支配する要因は何か?
- RQ3現実的なワークロードにおいて大きなバッチサイズはアウトオブサンプル誤差にコストを課すのか?
- RQ4バッチサイズが変化するとメタパラメータをどう調整する必要があり、単純なスケーリング規則は問題間で一様に成立するのか?
主な発見
- バッチサイズ–訓練ステップ関係は、ワークロードを跨いで共通の形をたどる:初期はバッチサイズとともに訓練ステップが比例的に減少し、その後効果が減少して、最終的には有用な最大バッチサイズを超えると改善がなくなる。
- 最大有用バッチサイズはワークロードにより大きく異なり、モデルと訓練アルゴリズムの性質に依存する;SGD with momentum(および Nesterov momentum)はプレーンな SGD より大きなバッチを活用でき、いくつかのモデルははるかに大きなバッチサイズを許容する。
- 最適な訓練メタパラメータは、バッチサイズと単純な universal な関係に従わない;線形な学習率スケーリングや他のヒューリスティクスは問題とバッチサイズによって一様には成り立たない。
- 先行研究の差異は、計算予算とメタパラメータ調整手順の違いによって説明できる;バッチサイズを増やすことがアウトオブサンプル性能を必ず低下させるという証拠はなく、ただし大きなバッチサイズは追加の正則化を必要とする場合がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。