[論文レビュー] ScaleCom: Scalable Sparsified Gradient Compression for Communication-Efficient Distributed Training
ScaleComは、サイクリック・ローカル・トップ-k(CLT-k)と低域パスメモリフィルターを用いたスケーラブルなスパース化勾配圧縮法を導入し、最小の精度損失で効率的なall-reduceと大規模バッチ訓練を実現します。
Large-scale distributed training of Deep Neural Networks (DNNs) on state-of-the-art platforms is expected to be severely communication constrained. To overcome this limitation, numerous gradient compression techniques have been proposed and have demonstrated high compression ratios. However, most existing methods do not scale well to large scale distributed systems (due to gradient build-up) and/or fail to evaluate model fidelity (test accuracy) on large datasets. To mitigate these issues, we propose a new compression technique, Scalable Sparsified Gradient Compression (ScaleCom), that leverages similarity in the gradient distribution amongst learners to provide significantly improved scalability. Using theoretical analysis, we show that ScaleCom provides favorable convergence guarantees and is compatible with gradient all-reduce techniques. Furthermore, we experimentally demonstrate that ScaleCom has small overheads, directly reduces gradient traffic and provides high compression rates (65-400X) and excellent scalability (up to 64 learners and 8-12X larger batch sizes over standard training) across a wide range of applications (image, language, and speech) without significant accuracy loss.
研究の動機と目的
- モデルとデータセットが成長する中で通信効率の高い分散トレーニングの必要性を動機づける。
- 多数のワーカーで勾配を集約する際にも有効であり続ける圧縮技術を開発する。
- 大規模バッチのデータ並列トレーニングを大きな精度低下なしで実現する。
- 標準的なall-reduceアーキテクチャと互換性を保証し、収束保証を提供する。
提案手法
- ローカルメモリをワーカー間で整合させる可換圧縮機としてCLT-kを提案する。
- 大規模バッチ/学習率設定下で勾配ノイズを抑制するために局所メモリにローパスフィルターを導入する。
- 標準SGD仮定の下でScaleComとCLT-kの収縮特性と収束保証を証明する。
- 理論と実験を通じてall-reduceとの互換性と最大64ワーカーまでのスケーラビリティを示す。
- CLT-k圧縮、メモリフィルタリング、勾配還元、更新を統合したエンドツーエンドのアルゴリズム(ScaleCom)を提供する。
実験結果
リサーチクエスチョン
- RQ1CLT-kは大規模分散トレーニングにおける誤差フィードバックSGDに適した可換性と収縮特性を提供できるか。
- RQ2大規模バッチサイズとスケールした学習率下でのメモリ更新のローパスフィルタが収束とメモリ類似性にどう影響するか。
- RQ3ScaleComの収束保証とワーカー数とともなる潜在的な線形スピードアップはどの程度か。
- RQ4ScaleComは多様なタスク(視覚・言語・音声)と大規模バッチ regimeでモデル精度を維持できるか。
- RQ5ScaleComは標準的なall-reduce実装と互換性があり、64以上のワーカーにスケーラブルか。
主な発見
| モデル(データセット) | ワーカー数 | 1ワーカーあたりのバッチサイズ | 圧縮率 | ベースライン | 圧縮後 |
|---|---|---|---|---|---|
| ResNet34 (CIFAR10) | 4 | 128 | 92X | 93.78 | 93.98 |
| ResNet18 (ImageNet) | 8 | 256 | 112X | 70.482 | 70.172 |
| ResNet50 (ImageNet) | 8 | 256 | 96X | 76.442 | 75.988 |
| MobileNetV2 (ImageNet) | 8 | 256 | 155X | 71.644 | 71.524 |
| Transformer-base (WMT14 En-De) [BLEU] | 8 | 36K | 47X (65X ∗) | 27.64 | 27.27 (27.24 ∗) |
| 4-bidirectional-LSTM (SWB300) [WER] | 4 | 128 | 400X | 10.4 | 10.1 |
- ScaleComは視覚・言語・音声タスク全般で精度低下がほとんどない状態で65-400Xの圧縮を達成する。
- それは64の学習者にスケールし、ImageNet、WMT、SWB300で精度を保ちながら8-12Xのより大きなバッチサイズを可能にする。
- CLT-k圧縮機は可換で、トップ-kと同様に収束する特性を持ち、効率的なall-reduceを可能にする。
- ローパスフィルタリングは大きな学習率下でのメモリ類似性を改善し、収束を保つ。
- 実証的な結果は標準バッチサイズでの劣化が最小であり、大規模バッチサイズ regimeでは強い維持を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。