QUICK REVIEW

[論文レビュー] PowerSGD: Practical Low-Rank Gradient Compression for Distributed Optimization

Thijs Vogels, Sai Praneeth Karimireddy|arXiv (Cornell University)|May 31, 2019

Advanced Data Compression Techniques参考文献 35被引用数 96

ひとこと要約

PowerSGDは、エラーフィードバックと全ての結合（all-reduce）集約を用いたpower iterationに基づく低ランク勾配圧縮器を導入し、分散トレーニングにおいて SGD に近い精度を保ちつつ通信の大幅な高速化を実現します。

ABSTRACT

We study gradient compression methods to alleviate the communication bottleneck in data-parallel distributed optimization. Despite the significant attention received, current compression schemes either do not scale well or fail to achieve the target test accuracy. We propose a new low-rank gradient compressor based on power iteration that can i) compress gradients rapidly, ii) efficiently aggregate the compressed gradients using all-reduce, and iii) achieve test performance on par with SGD. The proposed algorithm is the only method evaluated that achieves consistent wall-clock speedups when benchmarked against regular SGD with an optimized communication backend. We demonstrate reduced training times for convolutional networks as well as LSTMs on common datasets. Our code is available at https://github.com/epfml/powersgd.

研究の動機と目的

深層学習のデータ並列分散最適化における通信ボトルネックを動機づけ、対処する。
全減算（all-reduce）集約をサポートするスケーラブルな線形勾配圧縮器を開発する。
誤差フィードバックを用いて偏在圧縮でも収束とテスト精度を維持する。
CNNsとLSTMsを対象としたデータセットとハードウェアで、フル精度SGDに対する壁時計速度アップを実証する。
オープンソース実装を含む実践的で適応可能な方法を提供する。

提案手法

前のステップからのウォームスタートで、部分空間/パワーイテレーションの1ステップを用いて各勾配行列MをPQ^Tとして近似するランクrの勾配圧縮器を導入する。
線形性を活用して、W個のワーカー間で圧縮勾配の全減算ベースの集約を可能にする。
圧縮後の誤差を用いたフィードバックとポジティブモーメントを適用し、偏り圧縮でも収束を実現する。
層ごとに勾配を行列に分解し、それぞれの行列を独立に圧縮する。PはR^{n×r}、QはR^{m×r}で、rは小さい（1–4）。
PQ^Tとしてデcompressし、モーメント SGD（EF-SGD with Momentum）で分散更新を行う。
CIFAR-10/ResNet18およびWikitext-2/LSTMでSGDや他の圧縮法（Signum, Spectral Atomo）と経験的に比較し、壁時計時間、送信データ量、精度を報告する。

実験結果

リサーチクエスチョン

RQ1パワーイテレーションに基づく低ランク勾配圧縮器は、テスト精度を犠牲にすることなく通信削減を substantial に達成できるか。
RQ2誤差フィードバックは、非凸ディープラーニング設定における偏り圧縮スキームの収束性と頑健性を可能にするか。
RQ3パワーイテレーションのウォームスタートは、近似品質と時間とともに訓練精度にどのような影響を与えるか。
RQ4ランク、通信オーバーヘッド、およびエンドツーエンドのトレーニング時間のトレードオフは、CNNsとRNN/LSTMモデル間でどのように現れるか。
RQ5PowerSGDはワーカー数や異なる通信バックエンド（NCCL vs GLOO）でどのようにスケールするか。

主な発見

Algorithm	Test accuracy	Data sent per epoch	Time per batch
SGD	94.3%	1023 MB	312 ms
Rank-1 PowerSGD	93.6%	4 MB	229 ms
Rank-2 PowerSGD	94.4%	8 MB	239 ms
Rank-4 PowerSGD	94.5%	14 MB	260 ms

PowerSGDは、最適化されたNCCLバックエンドを使用した16-GPU設定で従来のSGDより wall-clock スピードアップを実現し、勾配を120倍以上圧縮する。
CIFAR-10のResNet-18では、Rank-2 PowerSGDは8 MBをエポックあたり伝送してSGDの1023 MBに対してテスト精度94.4%を達成（SGDは94.3%）する。
Wikitext-2のLSTMで言語モデリングを行う場合、Rank-4 PowerSGDはSGDと同等の困惑度を達成しつつエポックあたりのデータ送信を約99%削減し、エンドツーエンドの訓練時間を約55%削減する。
誤差フィードバックを伴うPowerSGDは、偏り付きRankベースの圧縮が無偏の圧縮よりテスト精度で上回る（例： bias Rank-2は94.4%、同様の設定で無偏は約75–76%）。
パワーイテレーションのウォームスタートは、最良のrank-r近似へのギャップを縮め、SVDコストを回避しつつテスト精度を維持または向上させる。
この手法は、all-reduceを介してワーカー数の増加に対してスケールし、最適化されたバックエンドでの速度とスケーラビリティの点で他の手法（Signum）を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。