QUICK REVIEW

[論文レビュー] 3LC: Lightweight and Effective Traffic Compression for Distributed Machine Learning

Hyeontaek Lim, David G. Andersen|arXiv (Cornell University)|Feb 21, 2018

Neural Networks and Applications参考文献 7被引用数 36

ひとこと要約

3LC は、分散機械学習のための軽量で損失あり圧縮方式であり、3値量子化、四次符号化、ゼロランク符号化を組み合わせることで、最小限の精度損失と低コストの計算負荷で最大107倍のトラフィック削減を達成する。既存の機械学習アルゴリズムを変更せずに、10-GPUクラスタ上でResNet-110のCIFAR-10訓練時間を最大23倍短縮できる。

ABSTRACT

The performance and efficiency of distributed machine learning (ML) depends significantly on how long it takes for nodes to exchange state changes. Overly-aggressive attempts to reduce communication often sacrifice final model accuracy and necessitate additional ML techniques to compensate for this loss, limiting their generality. Some attempts to reduce communication incur high computation overhead, which makes their performance benefits visible only over slow networks. We present 3LC, a lossy compression scheme for state change traffic that strikes balance between multiple goals: traffic reduction, accuracy, computation overhead, and generality. It combines three new techniques---3-value quantization with sparsity multiplication, quartic encoding, and zero-run encoding---to leverage strengths of quantization and sparsification techniques and avoid their drawbacks. It achieves a data compression ratio of up to 39--107X, almost the same test accuracy of trained models, and high compression speed. Distributed ML frameworks can employ 3LC without modifications to existing ML algorithms. Our experiments show that 3LC reduces wall-clock training time of ResNet-110--based image classifiers for CIFAR-10 on a 10-GPU cluster by up to 16--23X compared to TensorFlow's baseline design.

研究の動機と目的

高帯域幅の状態変更送信によって引き起こされる分散機械学習における通信ボトルネックを解消すること。
モデルの精度を損なわず、アルゴリズムの変更を要せずネットワークトラフィックを削減すること。
計算負荷を最小限に抑え、高速なローカルネットワークでもパフォーマンス向上が顕著に現れるようにすること。
圧縮効率、精度、汎用性、低コストの計算負荷の間でバランスの取れた妥協を達成すること。

提案手法

32ビット浮動小数点の状態変更を {-1, 0, 1} 値にマッピングする3値量子化を、スパarsity乗算と組み合わせて実装し、調整可能な圧縮ノブと誤差蓄積バッファを用いて量子化誤差を補正する。
四次符号化を用いて5つの3値を1バイトに圧縮し、ベクトル化可能な高速演算により、2ビット符号化と比較して20%のストレージ削減を実現する。
ゼロランク符号化—特化型ランレングス符号化の一種—を用いて、連続するゼロ値のバイトグループを圧縮し、四次符号化済みデータで最大8倍の圧縮を達成する。
3つの技術を統合したパイプラインを構築し、勾配およびモデルデルタの損失あり圧縮を実現するが、MLフレームワークの変更は一切不要。
ベクトル演算とバイトレベル処理を活用し、計算負荷を低く抑え、高いスループットを確保する。
TensorFlowなどの既存の分散学習フレームワークと互換性を持たせ、アルゴリズムの変更を要しないように設計する。

実験結果

リサーチクエスチョン

RQ1分散機械学習において、通信圧縮方式が高トラフィック削減を達成しながら、モデル精度を保持し、計算負荷を最小限に抑えられるか？
RQ2量子化とスパース化を効果的に組み合わせることで、それぞれの欠点を引き継がない方法は何か？
RQ3既存の機械学習フレームワークにアルゴリズム変更を加えずに、多様なネットワーク帯域幅において高いパフォーマンスを維持できる圧縮方式は可能か？
RQ4分散学習における状態変更トラフィックの最大圧縮比は何か？ただし収束性と精度を維持するものとする。
RQ5多様な勾配およびモデルデルタ分布を示す実世界の分散学習ワークロードにおいて、この圧縮方式はどのように性能を発揮するか？

主な発見

3LC は32ビット浮動小数点の状態変更において最大107倍のトラフィック圧縮比を達成し、1値あたり平均0.3–0.8ビットの圧縮を実現した。
同じ訓練ステップ数を用いても、高圧縮率であってもベースラインモデルと比較してテスト精度に0.1%以内の差異しか生じない。
10-GPUクラスタ上でのCIFAR-10用ResNet-110のウォールクロック訓練時間は、TensorFlowのベースラインと比較して最大23倍短縮された。
圧縮パイプラインは高速かつ計算負荷が低く、高速なデータセンターネットワークでもパフォーマンス向上が顕著に現れた。
ゼロランク符号化は四次符号化済みデータで最大8倍の圧縮を達成し、全体の効率を顕著に向上させた。
TernGrad や QSGD、Deep Gradient Compression よりも、圧縮比と精度保持の両面で優れており、モデルやアルゴリズムの変更を要しない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。