QUICK REVIEW

[論文レビュー] Distributed Learning with Compressed Gradient Differences

Konstantin Mishchenko, Eduard Gorbunov|arXiv (Cornell University)|Jan 26, 2019

Stochastic Gradient Optimization Techniques参考文献 18被引用数 108

ひとこと要約

DIANAアルゴリズムを紹介し、勾配差分を圧縮して分散学習を実現する。強凸および非凸の設定で理論的収束保証を持ち、QSGDおよびTernGradとの経験的比較を行う。

ABSTRACT

Training large machine learning models requires a distributed computing approach, with communication of the model updates being the bottleneck. For this reason, several methods based on the compression (e.g., sparsification and/or quantization) of updates were recently proposed, including QSGD (Alistarh et al., 2017), TernGrad (Wen et al., 2017), SignSGD (Bernstein et al., 2018), and DQGD (Khirirat et al., 2018). However, none of these methods are able to learn the gradients, which renders them incapable of converging to the true optimum in the batch mode. In this work we propose a new distributed learning method -- DIANA -- which resolves this issue via compression of gradient differences. We perform a theoretical analysis in the strongly convex and nonconvex settings and show that our rates are superior to existing rates. We also provide theory to support non-smooth regularizers study the difference between quantization schemes. Our analysis of block-quantization and differences between $\ell_2$ and $\ell_{\infty}$ quantization closes the gaps in theory and practice. Finally, by applying our analysis technique to TernGrad, we establish the first convergence rate for this method.

研究の動機と目的

大規模モデルの分散最適化における通信ボトルネックに対処する。
真の最適解への収束を保つ圧縮ベースの手法を開発する。
強凸と非凸の両方の設定で理論的保証を提供する。
非滑らかな正則化子を扱い、ブロック量子化と次元ベース量子化を分析する。
QSGD、TernGrad、DQGDなど既存の圧縮スキームと手法を比較・位置づける。

提案手法

通信量を削減するために、全勾配ではなく勾配差分を圧縮するDIANAを提案する。
各ワーカーにメモリベクトル h_i^k を導入し、最適解での勾配を学習させ、差分が0に収束するようにする。
有界分散を持つ無偏的な確率的勾配 g_i^k を用い、Δ_i^k = g_i^k − h_i^k を作る。
Δ_i^k に p-量子化を適用し、サーバに送信される圧縮更新を得る。
量子化された更新を集約してグローバルな方向を形成し、モーメント(v^k)を伴う近似勾配法ステップを実行する。
ブロック量子化を含む枠組みを提供し、量子化のためのさまざまな p-ノルム (p ≥ 1) の影響を分析する。

実験結果

リサーチクエスチョン

RQ1異質なデータを持つ分散環境で、勾配差分圧縮は真の最適解への収束を保証できるか？
RQ2滑らかさと正則化仮定の下で、強凸および非凸の領域における DIANA の収束速度はどうなるか？
RQ3異なる量子化スキーム（p-量子化、ブロック量子化）が通信と収束にどのような影響を与えるか？
RQ4理論と実験の両面で、DIANAはQSGDやTernGradの既存の圧縮更新法とどう比較されるか？
RQ5非滑らかな正則化子とモーメントが収束と実用性に与える影響は何か？

主な発見

DIANAは、強凸および非凸の目的関数の下で、既存の圧縮ベース手法と競合するかそれを上回る収束速度を達成する。
最適勾配のメモリ学習を用いた勾配差分圧縮は、圧縮にもかかわらず真の最適解への学習を可能にする。
ブロック量子化と高次の p ノルム（例: p = ∞）は、適切なパラメータ選択の下で収束を犠牲にせず通信を削減できる。
この解析は、Terngrad（TernGrad）と1-bit QSGDに対して、以前示されたより広い仮定の下で新しい収束保証を提供する。
実証実験では、モーメントを用いた DIANA がロジスティック回帰と CIFAR-10 の設定で、通常 QSGD、TernGrad、DQGD よりも優れていることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。