[論文レビュー] GossipGraD: Scalable Deep Learning using Gossip Communication based Asynchronous Gradient Descent
GossipGraDは、1ステップあたりの通信をO(1)に削減するゴシップベースの SGD を導入し、大規模なGPUクラスターでほぼ完璧な効率を達成し、SGDレベルの精度を保持します。
In this paper, we present GossipGraD - a gossip communication protocol based Stochastic Gradient Descent (SGD) algorithm for scaling Deep Learning (DL) algorithms on large-scale systems. The salient features of GossipGraD are: 1) reduction in overall communication complexity from Θ(log(p)) for p compute nodes in well-studied SGD to O(1), 2) model diffusion such that compute nodes exchange their updates (gradients) indirectly after every log(p) steps, 3) rotation of communication partners for facilitating direct diffusion of gradients, 4) asynchronous distributed shuffle of samples during the feedforward phase in SGD to prevent over-fitting, 5) asynchronous communication of gradients for further reducing the communication cost of SGD and GossipGraD. We implement GossipGraD for GPU and CPU clusters and use NVIDIA GPUs (Pascal P100) connected with InfiniBand, and Intel Knights Landing (KNL) connected with Aries network. We evaluate GossipGraD using well-studied dataset ImageNet-1K (~250GB), and widely studied neural network topologies such as GoogLeNet and ResNet50 (current winner of ImageNet Large Scale Visualization Research Challenge (ILSVRC)). Our performance evaluation using both KNL and Pascal GPUs indicates that GossipGraD can achieve perfect efficiency for these datasets and their associated neural network topologies. Specifically, for ResNet50, GossipGraD is able to achieve ~100% compute efficiency using 128 NVIDIA Pascal P100 GPUs - while matching the top-1 classification accuracy published in literature.
研究の動機と目的
- SGDにおける通信ボトルネックに対処することで、スケーラブルな分散ディープラーニングを動機づける。
- 収束性を維持しつつ一定の通信量で済む、ゴシップベースの SGD 変種を設計する。
- 拡散を改善し過学習を防ぐため、非同期データシャッフルとパートナー回転を導入する。
- 具体的なGPU/CPU実装を提供し、大規模データセットで評価する。
- 収束性を理論的に正当化し、ImageNet上でResNet50/GoogLeNetを用いた経験的性能を検証する。
提案手法
- GossipGraDを提案し、1ステップにつき1つのパートナーと更新を交換することで定常的な通信複雑度O(1)を実現し、log(p)ステップにわたる間接的拡散を行う。
- 階層的仮想トポロジ(ハイパーキューブまたはディセミネーション)を用いて、勾配の拡散をlog(p)ステップで保証する。
- 全ノード間の直接拡散を可能にするため、log(p)ステップごとにパートナー回転を導入する。
- 過学習を防ぐためのサンプルの非同期分散メモリシャッフルを適用し、シャッフルと前方伝播を重ね合わせる。
- MPI非ブロッキング通信とオプションの非同期進行スレッドを用いて、CPU (KNL) および GPU (Pascal P100) でGossipGraDを実装する。
- SGDと類似した局所解への収束を示す理論的収束議論を提供する。
実験結果
リサーチクエスチョン
- RQ1GossipGraDはSGDに似た収束を維持しつつ、定常的な通信複雑度を達成できるか。
- RQ2非同期拡散とパートナー回転は、大規模での勾配拡散と収束を改善するか。
- RQ3標準的なアーキテクチャ(GoogLeNetやResNet50)でImageNet規模のデータセットに対するGossipGraDの性能はどうか。
- RQ4大規模なGPU/CPUクラスターでGossipGraDをスケールさせた場合、達成可能な計算効率はどれくらいか。
主な発見
- GossipGraDは1ステップあたりO(1)の通信を実現し、通信と計算の重複をサポートする。
- 128個のNVIDIA Pascal P100 GPUで、GossipGraDはResNet50の計算効率を約100%達成する。
- GossipGraDはImageNet実験でResNet50およびGoogLeNetの公開済みトップ1精度と一致する。
- 実験にはImageNet-1K、GoogLeNet、ResNet50を含み、Pascal GPUsとIntel KNLの両方で、通信と計算の完全な重なりを実現。
- 理論分析と経験的結果は、GossipGraDが SGDに類似した局所解へ収束することを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。