[論文レビュー] Distributed Deep Learning Using Synchronous Stochastic Gradient Descent
本論文は multinode synchronous SGD フレームワーク(PCL-DNN)を提示し、ハイパーパラメータを変更せずに CPU 上で vanilla SGD をスケールさせ、CNN で最高のスループットを達成し、HPC クラスタと AWS の両方で強いスケーリングを示す。
We design and implement a distributed multinode synchronous SGD algorithm, without altering hyper parameters, or compressing data, or altering algorithmic behavior. We perform a detailed analysis of scaling, and identify optimal design points for different networks. We demonstrate scaling of CNNs on 100s of nodes, and present what we believe to be record training throughputs. A 512 minibatch VGG-A CNN training run is scaled 90X on 128 nodes. Also 256 minibatch VGG-A and OverFeat-FAST networks are scaled 53X and 42X respectively on a 64 node cluster. We also demonstrate the generality of our approach via best-in-class 6.5X scaling for a 7-layer DNN on 16 nodes. Thereafter we attempt to democratize deep-learning by training on an Ethernet based AWS cluster and show ~14X scaling on 16 nodes.
研究の動機と目的
- ハイパーパラメータを変更せず、圧縮を適用せずに multinode CPU システム上で同期 SGD を用いた深層ネットワークの大規模トレーニングを動機づけ、可能にする。
- ネットワークとレイヤ全体のスケーリング効率を最大化するために、分析的指向のハイブリッドなデータ並列・モデル並列アプローチを開発する。
- Xeon ベースのクラスターとクラウド上で高い全体的なタイム・トゥ・トレインを達成するために、単一ノード性能とネットワーク通信を最適化する。
- 複数のプラットフォームに跨る CNNs (OverFeat, VGG-A) および DNNs (7-layer DNN, CD-DNN-HMM) で実用的なスケーリングとスループット向上を実証する。
提案手法
- 計算量とメモリ帯域幅のバランス方程式を導出・解法し、最適なキャッシュブロック化とスレッド戦略を得る。
- データ並列、モデル並列、およびハイブリッド並列を提案・分析し、データ通信とモデル通信の要件の定量的比較を含める。
- データ配置とベクトル化戦略を、キャッシュ/ブロッキング最適化とともに開発し、単一ノードの高い効率(畳み込み層で最大約90%、全結合層で約70%)を目指す。
- 大規模マルチノード学習のために、MPI_Reduce_scatter および MPI_Allgather によって実装されたディープラーニングの通信プリミティブ(part-reduce および part-broadcast)を導入する。
- データ処理、AVX2 を搭載した x86 用の最適化計算ライブラリ、および大規模実行を可能にする MPI ベースの通信からなる PCL-DNN ソフトウェアフレームワークを提示する。
実験結果
リサーチクエスチョン
- RQ1ハイパーパラメータを変更せず、データ圧縮を使用せずに、vanilla synchronous SGD をマルチノード CPU クラスター全体にわたってどのようにスケールできるか?
- RQ2CPU 上での強スケーリングを最大化するために、異なるネットワーク層に対して最適なデータ並列・モデル並列・ハイブリッド並列戦略は何か?
- RQ3x86 CPU 上のCNNの高いトレーニングスループットとタイム・トゥ・トレインを達成するために必要な単一ノードの最適化(キャッシュブロック化、ベクトル化、スレッディング)は何か?
- RQ4提案されたフレームワークは、OverFeat や VGG-A のような CNN、および ASR 風の DNN に対して、Cori HPC クラスターと AWS EC2 などの多様なプラットフォームでどのように性能を示すか?
主な発見
- 512 minibatch の VGG-A CNN トレーニング実行は、128 ノードで 90x にスケールする高スループットを実現。
- 256 minibatch の VGG-A および OverFeat-FAST は、それぞれ 64 ノードで 53x と 42x にスケール。
- 7 レイヤー DNN の 16 ノードでのベストインクラス 6.5x のスケーリングは、フレームワークの汎用性を示す。
- AWS では、VGG-A でハイパーパラメータの変更をほとんど行わずに 16 ノードで 14x のスケーリングを達成。
- Xeon プロセッサ上での畳み込み層は約 90%、全結合層は約 70% の単一ノード最適化効率を達成。
- Cori で VGG-A は 128 ノードまで線形にスケールし、256–512 minibatch で 70-82% の効率、ImageNet-1K で epoch 時間を 10 分未満に短縮。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。