Skip to main content
QUICK REVIEW

[論文レビュー] Yet Another Accelerated SGD: ResNet-50 Training on ImageNet in 74.7 seconds

Masafumi Yamazaki, Akihiko Kasagi|arXiv (Cornell University)|Mar 29, 2019
Advanced Neural Network Applications参考文献 9被引用数 70
ひとこと要約

本論文は、2,048 GPUを用いて大容量ミニバッチでImagenetのResNet-50を訓練する最適化手法を提示し、1回の実行を74.7秒、トップ-1精度75.08%、スループットは1.73M images/secを超える。

ABSTRACT

There has been a strong demand for algorithms that can execute machine learning as faster as possible and the speed of deep learning has accelerated by 30 times only in the past two years. Distributed deep learning using the large mini-batch is a key technology to address the demand and is a great challenge as it is difficult to achieve high scalability on large clusters without compromising accuracy. In this paper, we introduce optimization methods which we applied to this challenge. We achieved the training time of 74.7 seconds using 2,048 GPUs on ABCI cluster applying these methods. The training throughput is over 1.73 million images/sec and the top-1 validation accuracy is 75.08%.

研究の動機と目的

  • 大規模なスケールでの分散ディープラーニングのボトルネックに対処する。
  • 検証精度を犠牲にすることなく大きなミニバッチ訓練を可能にする。
  • マルチGPUクラスターにおける計算・メモリ・通信のボトルネックを特定し最適化する。
  • MXNetを用いてABCIクラスタでエンドツーエンドの性能向上を実証する。
  • 大規模DNN訓練に一般化できる手法を提供する。

提案手法

  • ウォームアップとLayer-wise Adaptive Rate Scaling(LARS)を組み合わせた確率的勾配降下法を用いて大バッチ訓練を安定化させる。
  • 大きなミニバッチサイズで精度を向上させるためにラベルスムージングを使用する。
  • 大規模ミニバッチ設定に合わせてバッチ正規化の移動平均を調整する。
  • GPUs上での並列初期化とバッチ正規化計算を最適化するためにMXNetフレームワークを最適化する。
  • 全体通信(AllReduce)をデータサイズの拡大とバックプロパゲーションとの重畳スケジューリングで再設計する。
  • GPUカーネル最適化と通信を考慮したレイヤーグルーピングによってボトルネックを低減する。

実験結果

リサーチクエスチョン

  • RQ1数千のGPUにスケールした場合、large mini-batch SGDはImageNetのResNet-50の検証精度を維持できるか?
  • RQ2学習率スケジュール、正規化、通信など、どの最適化戦略が大規模GPUクラスタでほぼ線形スケーラビリティを実現するか?
  • RQ3初期化、バッチ正規化、AllReduceスケジューリングなどのフレームワークレベルの最適化が、規模拡大時のスループットと精度にどのように影響するか?

主な発見

バッチサイズプロセッサDLライブラリ時間精度
81,920Tesla V100 x 2,048MXNet1.2 mins75.08%
  • 2,048 GPUsを使用してImageNet上でResNet-50の訓練を74.7秒で達成。
  • スループットは1.73百万画像/秒を達成し、2,048 GPUsまで77.0%のスケーラビリティを達成。
  • 81,920ミニバッチサイズでTop-1検証精度75.08%を達成。
  • ウォームアップ、LARS、ラベルスムージングを通じて大規模ミニバッチ訓練が精度を維持できることを検証。
  • 従来の大規模ミニバッチ結果に対して、好ましいスケーラビリティと効率性の改善を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。