QUICK REVIEW

[論文レビュー] MATCHA: Speeding Up Decentralized SGD via Matching Decomposition Sampling

Jianyu Wang, Anit Kumar Sahu|arXiv (Cornell University)|May 23, 2019

Stochastic Gradient Optimization Techniques参考文献 36被引用数 41

ひとこと要約

MATCHAはネットワークをマッチングに分解し、それらを確率的に活性化することで、通信時間を削減しつつ収束速度を維持または向上させることにより、分散SGDを高速化します。

ABSTRACT

This paper studies the problem of error-runtime trade-off, typically encountered in decentralized training based on stochastic gradient descent (SGD) using a given network. While a denser (sparser) network topology results in faster (slower) error convergence in terms of iterations, it incurs more (less) communication time/delay per iteration. In this paper, we propose MATCHA, an algorithm that can achieve a win-win in this error-runtime trade-off for any arbitrary network topology. The main idea of MATCHA is to parallelize inter-node communication by decomposing the topology into matchings. To preserve fast error convergence speed, it identifies and communicates more frequently over critical links, and saves communication time by using other links less frequently. Experiments on a suite of datasets and deep neural networks validate the theoretical analyses and demonstrate that MATCHA takes up to $5 imes$ less time than vanilla decentralized SGD to reach the same training loss.

研究の動機と目的

任意のネットワークトポロジーの下で、分散SGDにおける誤差と実行時間のトレードオフを動機づけ、分析する。
収束速度を維持しつつ通信を削減するためのマッチング分解サンプリング法を提案する。
理論的な収束保証を提供し、通信予算がパフォーマンスに与える影響を定量化する。
深層学習タスク全体で、多様なデータセットとネットワークトポロジーに対して経験的な利得を示す。

提案手法

基礎通信グラフを M 個の互いに異なるマッチングに分解し、並列かつ低次数の通信を可能にする。
各マッチングに活性化確率 p_j を割り当て、各反復の期待通信時間を制御する。制約は sum p_j ≤ C_b M。
予想トポロジーの代数的連結性 λ2 を最大化する convex 最適化を解く：予算制約と 0 ≤ p_j ≤ 1 の下で λ2(sum_j p_j L_j) を最大化する。
各反復で p_j に従ってマッチングを独立にサンプリングし、ランダムなトポロジー列を生成する。これにより、まばらまたは連結していない可能性のあるアクティブなサブグラフが得られる。
収束合意ステップを最適化するため、混合行列 W^(k) を W^(k) = I − α L^(k) と適応させ、ρ < 1 を保証するように計算された α を用いる。ここで L^(k) はアクティブラプラシアン。
非凸目的関数に対するノンアシンポティックな収束保証を提供し、特定の設定下で線形スピードアップを示す。

実験結果

リサーチクエスチョン

RQ1ネットワークトポロジーと通信頻度は、分散SGDにおける誤差対ウォールクロック時間の収束にどう影響するか？
RQ2限られた確率で異なるマッチングを活性化することは、通信コストと収束速度のトレードオフを改善できるか？
RQ3任意の通信予算で非凸目的関数に対して Matcha を使用した場合の理論的保証（収束と速度）はどうなるか？
RQ4視覚・言語タスクのさまざまなグラフトポロジーにおいて、Matcha の理論的主張は経験的な利得へどう翻訳されるか？

主な発見

Matcha は、同じ訓練損失に到達するまでのウォールクロック時間をバニラの Decentralized SGD と比較して最大で 5.2× 短縮する。
より接続性が重要なリンクを活性化し、重要でないリンクを減らすことで、スペクトルノルム ρ を維持または低減させ、誤差収束を維持または改善する。
与えられた基底グラフに対して、適切な通信予算を用いた Matcha は期待トポロジーの同じまたはより良い λ2（代数的連結性）を維持でき、より速い収束を助ける。
適切な学習率とスペクトル特性を用いたノンアシンポティック分析は、Matcha が非凸目的関数に対して停留点へ収束することを示す。
CIFAR-10/100 および Penn Treebank での経験的結果は、Matcha がバニラの DecenSGD を上回り、複数のトポロジーで周期的 DecenSGD よりも競争力がある、あるいはそれ以上であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。