QUICK REVIEW

[論文レビュー] Communication Compression for Decentralized Training

Hanlin Tang, Shaoduo Gan|arXiv (Cornell University)|Mar 17, 2018

Stochastic Gradient Optimization Techniques被引用数 185

ひとこと要約

本論文では、交換されるモデルを圧縮しつつ収束を維持する2つの量子化された分散 SGD アルゴリズム（DCD-PSGD および ECD-PSGD）を導入し、O(1/√(nT)) のレートを達成し、実験 CIFAR-10 の ResNet-20 において高遅延・低帯域幅下で有意なスピードアップを示します。

ABSTRACT

Optimizing distributed learning systems is an art of balancing between computation and communication. There have been two lines of research that try to deal with slower networks: {\em communication compression} for low bandwidth networks, and {\em decentralization} for high latency networks. In this paper, We explore a natural question: {\em can the combination of both techniques lead to a system that is robust to both bandwidth and latency?} Although the system implication of such combination is trivial, the underlying theoretical principle and algorithm design is challenging: unlike centralized algorithms, simply compressing exchanged information, even in an unbiased stochastic way, within the decentralized network would accumulate the error and fail to converge. In this paper, we develop a framework of compressed, decentralized training and propose two different strategies, which we call {\em extrapolation compression} and {\em difference compression}. We analyze both algorithms and prove both converge at the rate of $O(1/\sqrt{nT})$ where $n$ is the number of workers and $T$ is the number of iterations, matching the convergence rate for full precision, centralized training. We validate our algorithms and find that our proposed algorithm outperforms the best of merely decentralized and merely quantized algorithm significantly for networks with {\em both} high latency and low bandwidth.

研究の動機と目的

高遅延・低帯域幅ネットワークの両方に対処するため、分散性と通信圧縮を組み合わせた堅牢な分散トレーニングを動機づける。
収束保証を維持する2つの圧縮型分散 SGD アルゴリズム（DCD-PSGD および ECD-PSGD）を開発する。
特定の条件下で中央集約トレーニングと同等のレートを示す理論的収束解析を提供する。
難しいネットワークにおいて、提案手法が純粋な分散型または純粋な量子化アプローチを上回ることを実証的に検証する。

提案手法

nノードとリプシッツ梯度目的関数を持つ分散最適化を定式化する。
2つの量子化された分散 SGD アルゴリズムを導入する：DCD-PSGD（差分圧縮）とECD-PSGD（外挿圧縮）。
仮定を課す：スペクトルギャップ ρ を持つ対称二重確率的通信行列 W、リプシッツ勾配、界限付き勾配分散 σ² および ζ²、信号対雑音比パラメータ α を持つ無偏な確率的圧縮。
DCD-PSGD の場合、差分 z_t^(i) = x_t^(i+1/2) − x_t^(i) を圧縮し、隣接ノードのモデルのレプリカをそれに応じて更新し、Theorem 1 および Corollaries を通じて収束を保証する。
ECD-PSGD の場合、外挿された z 値を用いて隣接ノードの推定値を伝送し、拘束された圧縮ノイズ Assumption 2 の下で収束を証明し、DCD-PSGD に匹敵するレートを達成しつつ過激な圧縮に対する頑健性を向上させる。
収束レートを導出する：主項 O(σ/√(nT)) に ζ、α、ρ、γ を含む項を加え、全体として O(1/√(nT)) のレートとノード数とともなう線形スピードアップを与えるコロラリーを提供する。）

実験結果

リサーチクエスチョン

RQ1分散トレーニングと無偏圧縮の組み合わせは、誤差蓄積なしに収束を達成できるか？
RQ2圧縮型分散 SGD の収束レートはどのように確立でき、中央集権型および無圧縮分散のベースラインとどう比較されるか？
RQ3提案された2つの戦略（差分圧縮と外挿圧縮）は、様々なネットワーク条件下で頑健性と性能がどう異なるか？
RQ4実用的な設定で提案手法はワーカー数とともに線形スピードアップを示すか？

主な発見

2つの圧縮型分散 SGD アルゴリズム（DCD-PSGD および ECD-PSGD）は、概ね O(1/√(nT)) のレートで収束する。
ECD-PSGD は過激な圧縮に対してより頑健であり、ノード間のデータ変動が大きい場合には DCD-PSGD の方がレートが良くなることがある。ただし、過度に過激な圧縮は DCD-PSGD の発散を招く可能性がある。
主要な収束項は中央集中型の並列 SGD に一致し、ノード数とともに線形のスピードアップを示す。
理論的結果は、分散型の低精度トレーニングが高遅延または低帯域幅のネットワークで Allreduce を上回ることを示す実験によって補完される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。