Skip to main content
QUICK REVIEW

[論文レビュー] Decentralized Stochastic Optimization and Gossip Algorithms with Compressed Communication

Anastasiia Koloskova, Sebastian U. Stich|arXiv (Cornell University)|Feb 1, 2019
Stochastic Gradient Optimization Techniques被引用数 185
ひとこと要約

Choco-SGDとChoco-Gossipを紹介する、圧縮通信を用いた分散SGDとGossipアルゴリズムで、偏りあり/なしの圧縮や様々なネットワークトポロジーの下で収束速度と線形コンセンサスを証明する。

ABSTRACT

We consider decentralized stochastic optimization with the objective function (e.g. data samples for machine learning task) being distributed over $n$ machines that can only communicate to their neighbors on a fixed communication graph. To reduce the communication bottleneck, the nodes compress (e.g. quantize or sparsify) their model updates. We cover both unbiased and biased compression operators with quality denoted by $ω\leq 1$ ($ω=1$ meaning no compression). We (i) propose a novel gossip-based stochastic gradient descent algorithm, CHOCO-SGD, that converges at rate $\mathcal{O}\left(1/(nT) + 1/(T δ^2 ω)^2\right)$ for strongly convex objectives, where $T$ denotes the number of iterations and $δ$ the eigengap of the connectivity matrix. Despite compression quality and network connectivity affecting the higher order terms, the first term in the rate, $\mathcal{O}(1/(nT))$, is the same as for the centralized baseline with exact communication. We (ii) present a novel gossip algorithm, CHOCO-GOSSIP, for the average consensus problem that converges in time $\mathcal{O}(1/(δ^2ω) \log (1/ε))$ for accuracy $ε> 0$. This is (up to our knowledge) the first gossip algorithm that supports arbitrary compressed messages for $ω> 0$ and still exhibits linear convergence. We (iii) show in experiments that both of our algorithms do outperform the respective state-of-the-art baselines and CHOCO-SGD can reduce communication by at least two orders of magnitudes.

研究の動機と目的

  • データが固定グラフで接続された複数ノードに分散している分散型確率的最適化を調査する。
  • 通信効率を高めるために圧縮更新を用いるアルゴリズムを開発する。
  • 圧縮品質とネットワークトポロジーを活用しつつ、中央集権的ミニバッチSGDと同等の主要項で収束保証を確立する。

提案手法

  • Choco-SGDを提案、圧縮通信を用いたGossipベースの分散SGDで、強凸目的関数に対してレート O(1/(nT) + 1/(T δ^2 ω)^2) を達成。
  • Choco-Gossipを導入、任意の圧縮で平均コンセンサスを行うGossipアルゴリズム、線形収束率 O(1/(δ^2 ω) log(1/ε)) を証明。
  • 偏りの有る/無い圧縮演算子を ω ≤ 1 で特徴付け、ω = 1 は圧縮なしを意味。
  • 統一的な収束解析を提供し、最初の分散型確率的レートが中心化されたミニバッチSGDのリーディング項と一致することを示す。
  • ネットワークトポロジー(δによって)と圧縮(ωによって)だけが収束速度の高次項に影響を与えることを示す。
  • 理論的・実験的に、Choco-SGDとChoco-Gossipが最先端のベースラインを上回り、通信を大幅に削減することを検証。

実験結果

リサーチクエスチョン

  • RQ1圏化されたネットワーク構造にも関わらず、圧縮とネットワークトポロジーを考慮しても分散型確率的最適化は中央集権型ミニバッチSGDと同等の主要項の収束速度を達成できるのか。
  • RQ2圧縮品質(ω)とネットワーク接続性(δ)は、分散SGDとGossipアルゴリズムの収束速度にどのように影響するのか。
  • RQ3偏りのある圧縮をサポートしつつ、真の解への収束を保つGossipとSGDの設計は可能か。
  • RQ4実装上のChoco-SGDとChoco-Gossipは、通信制約下で既存の分散法より実証的に有利になるのか。

主な発見

  • Choco-SGDは強凸目的関数に対してレート O(1/(nT) + 1/(T δ^2 ω)^2) で収束し、中央集権的ミニバッチSGDのリーディング項に一致する。
  • Choco-Gossipは圧縮通信下で平均コンセンサスに対して線形収束を実現し、レートは O(1/(δ^2 ω) log(1/ε))。
  • Choco-SGDの第1項 O(1/(nT)) は圧縮品質とネットワーク接続性に依らず保持され、中央集権的な性能を反映する。
  • Choco-SGDとChoco-Gossipは実験で最先端のベースライン(ECD-SGD, DCD-SGD)を上回り、Choco-SGDは通信削減を大幅に達成。
  • Choco-Gossipは ω>0 で任意の圧縮メッセージをサポートし線形収束を達成する一方、近似的量子化を要求する以前の方法とは異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。