QUICK REVIEW
[論文レビュー] Extremely Large Minibatch SGD: Training ResNet-50 on ImageNet in 15 Minutes
Takuya Akiba, Shuji Suzuki|arXiv (Cornell University)|Nov 12, 2017
Advanced Neural Network Applications参考文献 6被引用数 281
ひとこと要約
この論文は、1024個の Tesla P100 GPU を用い minibatch 32k で ResNet-50 を ImageNet 上で 15 分で学習させ、RMSprop のウォームアップ、スロー開始の学習率、移動平均を使わない BN を維持することで top-1 精度 ~74.9% を保つ。
ABSTRACT
We demonstrate that training ResNet-50 on ImageNet for 90 epochs can be achieved in 15 minutes with 1024 Tesla P100 GPUs. This was made possible by using a large minibatch size of 32k. To maintain accuracy with this large minibatch size, we employed several techniques such as RMSprop warm-up, batch normalization without moving averages, and a slow-start learning rate schedule. This paper also describes the details of the hardware and software of the system used to achieve the above performance.
研究の動機と目的
- 大規模データセット上で広範な並列性を用いて標準的な CNN の超高速訓練を実証する。
- 非常に大きな minibatch サイズでも高い精度を維持できることを示す。
- スケーラブルな学習を可能にするハードウェア/ソフトウェアスタックと訓練手順を詳述する。
- 大規模な minibatch での最適化を安定させる方法を特定・検証する。
提案手法
- ImageNet 上で 90 エポックを 1024GPU で 32k の minibatch を使用する。
- 初期の最適化を緩和し SGD への滑らかな移行のために RMSprop ウォームアップを適用する。
- 初期の最適化難易度を緩和するスロー開始学習率スケジュールを実装する。
- バッチ正規化の移動平均を最後の minibatch からの統計に置き換え、全積算(all-reduce)で同期する。
- Chainer と ChainerMN を NCCL と Open MPI と共に使用し、通信のオーバーヘッドを削減するために半精度を使用する。
- 再現性のある大規模訓練を可能にする詳細なハードウェア(MN-1 クラスター)とソフトウェア構成を提供する。
実験結果
リサーチクエスチョン
- RQ1ResNet-50 は minibatch サイズ 32k で ImageNet を精度を犠牲にせずに訓練できるか?
- RQ2極端な minibatch SGD を安定させるためには、オプティマイザのウォームアップ、スロー開始 LR、BN 統計の扱いなど、どのような訓練手順の調整が必要か?
- RQ3非常に大きな minibatches で訓練する際のハードウェア/ソフトウェア要件とスケーラビリティ特性は?
主な発見
| チーム | ハードウェア | ソフトウェア | ミニバッチサイズ | 時間 | 精度 |
|---|---|---|---|---|---|
| He et al. | Tesla P100 × 8 | Caffe | 256 | 29 hr | 75.3 % |
| Goyal et al. | Tesla P100 × 256 | Caffe2 | 8,192 | 1 hr | 76.3 % |
| Codreanu et al. | KNL 7250 × 720 | Intel Caffe | 11,520 | 62 min | 75.0 % |
| You et al. | Xeon 8160 × 1600 | Intel Caffe | 16,000 | 31 min | 75.3 % |
| This work | Tesla P100 × 1024 | Chainer | 32,768 | 15 min | 74.9 % |
- 32k minibatch と 1024 GPU での ImageNet 上の ResNet-50 の 90-エポック訓練は 74.9% の top-1 精度を達成。
- 総訓練時間は 15 分(1024 GPU での 90 エポックの 1 回あたり 897.9 ± 3.3 秒)。
- スケーリング効率は 単一 GPU ベースラインに対して 70%、単一ノード(8 GPU)ベースラインに対して 80%。
- prior works との比較では、大規模 minibatch 訓練は慎重なアルゴリズム設計とシステム設計で実現可能。
- 方法は大規模 minibatch サイズにもかかわらず、以前の ResNet-50 結果と同等の安定性と精度を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。