[論文レビュー] Massively Distributed SGD: ImageNet/ResNet-50 Training in a Flash
本論文は、バッチサイズ制御、ラベル平滑化、および 2D-Torus all-reduce を用いて ImageNet/ResNet-50 を大規模に訓練することを実証し、Neural Network Libraries (NNL) を用いた ABCI クラスター上で 122 秒の訓練を達成した。
Scaling the distributed deep learning to a massive GPU cluster level is challenging due to the instability of the large mini-batch training and the overhead of the gradient synchronization. We address the instability of the large mini-batch training with batch-size control and label smoothing. We address the overhead of the gradient synchronization with 2D-Torus all-reduce. Specifically, 2D-Torus all-reduce arranges GPUs in a logical 2D grid and performs a series of collective operation in different orientations. These two techniques are implemented with Neural Network Libraries (NNL). We have successfully trained ImageNet/ResNet-50 in 122 seconds without significant accuracy loss on ABCI cluster.
研究の動機と目的
- 大規模ミニバッチ訓練の不安定性に対処する。
- 大規模な GPU クラスターでの勾配同期のオーバーヘッドを削減する。
- 高速でスケーラブルなCNN訓練を実現する実用的技術を提案する。
- 大規模クラスターでの高速度 ImageNet/ResNet-50 訓練を実証する。
提案手法
- 大規模ミニバッチ訓練を安定化させるためにバッチサイズ制御を用いる。
- 大規模バッチ下での一般化を改善するためにラベル平滑化を適用する。
- 2D-Torus all-reduce を実装して、GPUを効率的な集団通信のための2Dグリッドに編成する。
- 上記の技術を実装するために Neural Network Libraries (NNL) を活用する。
- ResNet-50 アーキテクチャで ImageNet を評価する。
- ABCI クラスター上の訓練時間と精度への影響を報告する。
実験結果
リサーチクエスチョン
- RQ1スケールでの分散 SGD において、どのように大規模ミニバッチ訓練を安定化できるか。
- RQ2巨大な GPU クラスターで勾配同期のオーバーヘッドを効果的に削減できるか。
- RQ3提案技術を用いた ImageNet/ResNet-50 訓練でどの程度の性能向上が達成できるか。
- RQ4分散設定でバッチサイズ制御とラベル平滑化を適用した場合の速度と精度のトレードオフは何か。
主な発見
- ABCI クラスター上で 122 秒で ImageNet/ResNet-50 を訓練し、精度の大幅な低下なし。
- バッチサイズ制御とラベル平滑化は、非常に大きなミニバッチによる不安定性を緩和する。
- 2D-Torus all-reduce は、勾配同期のオーバーヘッドを、集団操作のためにGPUを2Dグリッドに編成することで削減する。
- Neural Network Libraries (NNL) での技術の実装は、スケーラブルな分散 SGD を可能にする。
- 大規模に分散したCNN訓練へ実践的な道筋を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。