QUICK REVIEW

[論文レビュー] An Efficient Statistical-based Gradient Compression Technique for Distributed Training Systems

Ahmed M. Abdelmoniem, Ahmed Elzanaty|arXiv (Cornell University)|Jan 26, 2021

Advanced Neural Network Applications参考文献 71被引用数 31

ひとこと要約

SIDCo は、低オーバーヘッドで圧縮閾値を正確に推定し、分散訓練を高速化する閾値ベースの多段階勾配スパース化手法を導入します。

ABSTRACT

The recent many-fold increase in the size of deep neural networks makes efficient distributed training challenging. Many proposals exploit the compressibility of the gradients and propose lossy compression techniques to speed up the communication stage of distributed training. Nevertheless, compression comes at the cost of reduced model quality and extra computation overhead. In this work, we design an efficient compressor with minimal overhead. Noting the sparsity of the gradients, we propose to model the gradients as random variables distributed according to some sparsity-inducing distributions (SIDs). We empirically validate our assumption by studying the statistical characteristics of the evolution of gradient vectors over the training process. We then propose Sparsity-Inducing Distribution-based Compression (SIDCo), a threshold-based sparsification scheme that enjoys similar threshold estimation quality to deep gradient compression (DGC) while being faster by imposing lower compression overhead. Our extensive evaluation of popular machine learning benchmarks involving both recurrent neural network (RNN) and convolution neural network (CNN) models shows that SIDCo speeds up training by up to 41:7%, 7:6%, and 1:9% compared to the no-compression baseline, Topk, and DGC compressors, respectively.

研究の動機と目的

分散DNN訓練における通信ボトルネックを動機づけ、対処する。
スパース性を誘導する分布として勾配をモデル化し、効率的な圧縮を実現する。
低オーバーヘッドの多段階閾値ベース圧縮方式を開発する。
SIDCo がターゲット圧縮を達成するための閉形式の閾値推定器を提供する。
RNNおよびCNNのベンチマークにおける高速化と訓練効率の向上を示す。

提案手法

勾配をスパース性を誘導する分布（SID: double exponential、double gamma、および double generalized Pareto）から抽出された確率変数としてモデル化する。
絶対勾配分布の逆CDFを用いてターゲット圧縮比を達成する閾値を導出する。
単一段階の閾値付け方式と、過度なスパース化での尾部閾値精度を改善する多段階推定器を提案する。
指数分布、ガンマ分布、GP分布のコロラリーを用いた多段階の PoT（ピーク・オーバー・閾値）適合手法で閾値を適応させる。
推定誤差を境界づけるようステージ数 M を選択する適応的 SIDCo アルゴリズムを提供する。
収束を分析し、圧縮の差異を有界とした場合に SIDCo の収束速度が SGD に一致することを示す。

実験結果

リサーチクエスチョン

RQ1収束性能を維持しつつ、最小限の計算オーバーヘッドで勾配圧縮を実現するにはどうすればよいか？
RQ2勾配分布をスパース性を誘導する分布で効果的にモデル化して、正確な閾値推定を可能にできるか？
RQ3多段階閾値推定器は、アーキテクチャ横断での過激なスパース化に対して閾値精度を改善するか？
RQ4閾値ベースのスパース化の下での SIDCo の収束保証は何か？
RQ5標準ベンチマークで SIDCo が達成する実用的な高速化と品質のトレードオフは何か？

主な発見

SIDCo はノー圧縮、Topk、DGC 圧縮器に対して、それぞれ約 41.7x、7.6x、1.9x の訓練速度向上を達成する。
SIDを用いた単一段階の閾値付けは、Topk や DGC よりも低オーバーヘッドでほぼターゲット圧縮を実現できる（GPUとCPUの設定の双方で）。
多段階閾値推定は、過激なスパース化（δ が非常に小さい場合）の尾部精度を改善する。
SIDCo の収束速度は有界な差異の下で SGD に一致する、漸近的な収束挙動の損失がないことを意味する。
RNN および CNN ベンチマークでの実験結果は、モデル間で一貫した性能向上と正確な閾値推定を示す。
SIDCo の計算量はモデルサイズに線形で、GPU並行実装をスケーラブルに可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。