QUICK REVIEW

[論文レビュー] Extremely Large Minibatch SGD: Training ResNet-50 on ImageNet in 15 Minutes

Takuya Akiba, Shuji Suzuki|arXiv (Cornell University)|Nov 12, 2017

Advanced Neural Network Applications参考文献 6被引用数 281

ひとこと要約

この論文は、1024個の Tesla P100 GPU を用い minibatch 32k で ResNet-50 を ImageNet 上で 15 分で学習させ、RMSprop のウォームアップ、スロー開始の学習率、移動平均を使わない BN を維持することで top-1 精度 ~74.9% を保つ。

ABSTRACT

We demonstrate that training ResNet-50 on ImageNet for 90 epochs can be achieved in 15 minutes with 1024 Tesla P100 GPUs. This was made possible by using a large minibatch size of 32k. To maintain accuracy with this large minibatch size, we employed several techniques such as RMSprop warm-up, batch normalization without moving averages, and a slow-start learning rate schedule. This paper also describes the details of the hardware and software of the system used to achieve the above performance.

研究の動機と目的

大規模データセット上で広範な並列性を用いて標準的な CNN の超高速訓練を実証する。
非常に大きな minibatch サイズでも高い精度を維持できることを示す。
スケーラブルな学習を可能にするハードウェア/ソフトウェアスタックと訓練手順を詳述する。
大規模な minibatch での最適化を安定させる方法を特定・検証する。

提案手法

ImageNet 上で 90 エポックを 1024GPU で 32k の minibatch を使用する。
初期の最適化を緩和し SGD への滑らかな移行のために RMSprop ウォームアップを適用する。
初期の最適化難易度を緩和するスロー開始学習率スケジュールを実装する。
バッチ正規化の移動平均を最後の minibatch からの統計に置き換え、全積算（all-reduce）で同期する。
Chainer と ChainerMN を NCCL と Open MPI と共に使用し、通信のオーバーヘッドを削減するために半精度を使用する。
再現性のある大規模訓練を可能にする詳細なハードウェア（MN-1 クラスター）とソフトウェア構成を提供する。

実験結果

リサーチクエスチョン

RQ1ResNet-50 は minibatch サイズ 32k で ImageNet を精度を犠牲にせずに訓練できるか？
RQ2極端な minibatch SGD を安定させるためには、オプティマイザのウォームアップ、スロー開始 LR、BN 統計の扱いなど、どのような訓練手順の調整が必要か？
RQ3非常に大きな minibatches で訓練する際のハードウェア/ソフトウェア要件とスケーラビリティ特性は？

主な発見

チーム	ハードウェア	ソフトウェア	ミニバッチサイズ	時間	精度
He et al.	Tesla P100 × 8	Caffe	256	29 hr	75.3 %
Goyal et al.	Tesla P100 × 256	Caffe2	8,192	1 hr	76.3 %
Codreanu et al.	KNL 7250 × 720	Intel Caffe	11,520	62 min	75.0 %
You et al.	Xeon 8160 × 1600	Intel Caffe	16,000	31 min	75.3 %
This work	Tesla P100 × 1024	Chainer	32,768	15 min	74.9 %

32k minibatch と 1024 GPU での ImageNet 上の ResNet-50 の 90-エポック訓練は 74.9% の top-1 精度を達成。
総訓練時間は 15 分（1024 GPU での 90 エポックの 1 回あたり 897.9 ± 3.3 秒）。
スケーリング効率は単一 GPU ベースラインに対して 70%、単一ノード（8 GPU）ベースラインに対して 80%。
prior works との比較では、大規模 minibatch 訓練は慎重なアルゴリズム設計とシステム設計で実現可能。
方法は大規模 minibatch サイズにもかかわらず、以前の ResNet-50 結果と同等の安定性と精度を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。