Skip to main content
QUICK REVIEW

[論文レビュー] Extremely Large Minibatch SGD: Training ResNet-50 on ImageNet in 15 Minutes

Takuya Akiba, Shuji Suzuki|arXiv (Cornell University)|Nov 12, 2017
Advanced Neural Network Applications参考文献 6被引用数 281
ひとこと要約

この論文は、1024個の Tesla P100 GPU を用い minibatch 32k で ResNet-50 を ImageNet 上で 15 分で学習させ、RMSprop のウォームアップ、スロー開始の学習率、移動平均を使わない BN を維持することで top-1 精度 ~74.9% を保つ。

ABSTRACT

We demonstrate that training ResNet-50 on ImageNet for 90 epochs can be achieved in 15 minutes with 1024 Tesla P100 GPUs. This was made possible by using a large minibatch size of 32k. To maintain accuracy with this large minibatch size, we employed several techniques such as RMSprop warm-up, batch normalization without moving averages, and a slow-start learning rate schedule. This paper also describes the details of the hardware and software of the system used to achieve the above performance.

研究の動機と目的

  • 大規模データセット上で広範な並列性を用いて標準的な CNN の超高速訓練を実証する。
  • 非常に大きな minibatch サイズでも高い精度を維持できることを示す。
  • スケーラブルな学習を可能にするハードウェア/ソフトウェアスタックと訓練手順を詳述する。
  • 大規模な minibatch での最適化を安定させる方法を特定・検証する。

提案手法

  • ImageNet 上で 90 エポックを 1024GPU で 32k の minibatch を使用する。
  • 初期の最適化を緩和し SGD への滑らかな移行のために RMSprop ウォームアップを適用する。
  • 初期の最適化難易度を緩和するスロー開始学習率スケジュールを実装する。
  • バッチ正規化の移動平均を最後の minibatch からの統計に置き換え、全積算(all-reduce)で同期する。
  • Chainer と ChainerMN を NCCL と Open MPI と共に使用し、通信のオーバーヘッドを削減するために半精度を使用する。
  • 再現性のある大規模訓練を可能にする詳細なハードウェア(MN-1 クラスター)とソフトウェア構成を提供する。

実験結果

リサーチクエスチョン

  • RQ1ResNet-50 は minibatch サイズ 32k で ImageNet を精度を犠牲にせずに訓練できるか?
  • RQ2極端な minibatch SGD を安定させるためには、オプティマイザのウォームアップ、スロー開始 LR、BN 統計の扱いなど、どのような訓練手順の調整が必要か?
  • RQ3非常に大きな minibatches で訓練する際のハードウェア/ソフトウェア要件とスケーラビリティ特性は?

主な発見

チームハードウェアソフトウェアミニバッチサイズ時間精度
He et al.Tesla P100 × 8Caffe25629 hr75.3 %
Goyal et al.Tesla P100 × 256Caffe28,1921 hr76.3 %
Codreanu et al.KNL 7250 × 720Intel Caffe11,52062 min75.0 %
You et al.Xeon 8160 × 1600Intel Caffe16,00031 min75.3 %
This workTesla P100 × 1024Chainer32,76815 min74.9 %
  • 32k minibatch と 1024 GPU での ImageNet 上の ResNet-50 の 90-エポック訓練は 74.9% の top-1 精度を達成。
  • 総訓練時間は 15 分(1024 GPU での 90 エポックの 1 回あたり 897.9 ± 3.3 秒)。
  • スケーリング効率は 単一 GPU ベースラインに対して 70%、単一ノード(8 GPU)ベースラインに対して 80%。
  • prior works との比較では、大規模 minibatch 訓練は慎重なアルゴリズム設計とシステム設計で実現可能。
  • 方法は大規模 minibatch サイズにもかかわらず、以前の ResNet-50 結果と同等の安定性と精度を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。