QUICK REVIEW

[論文レビュー] Slow and Stale Gradients Can Win the Race: Error-Runtime Trade-offs in Distributed SGD

Sanghamitra Dutta, Gauri Joshi|arXiv (Cornell University)|Mar 3, 2018

Distributed and Parallel Computing Systems被引用数 94

ひとこと要約

本論文は、ランダムな遅延を伴う同期・非同期分散SGDのエラー-実行時間のトレードオフを分析し、勾配の古さを補償する学習率スケジュールを提案するとともに、境界付き遅延仮定なしでの実行時間を評価します。

ABSTRACT

Distributed Stochastic Gradient Descent (SGD) when run in a synchronous manner, suffers from delays in waiting for the slowest learners (stragglers). Asynchronous methods can alleviate stragglers, but cause gradient staleness that can adversely affect convergence. In this work we present a novel theoretical characterization of the speed-up offered by asynchronous methods by analyzing the trade-off between the error in the trained model and the actual training runtime (wallclock time). The novelty in our work is that our runtime analysis considers random straggler delays, which helps us design and compare distributed SGD algorithms that strike a balance between stragglers and staleness. We also present a new convergence analysis of asynchronous SGD variants without bounded or exponential delay assumptions, and a novel learning rate schedule to compensate for gradient staleness.

研究の動機と目的

分散SGDにおけるストラグラーと勾配の古さの問題を動機づける。
全体のウォールクロックの反復あたりの実行時間を一般分布を持つ確率変数としてモデル化する。
有界遅延仮定なしでの非同期SGD変種の収束分析を提供する。
勾配の古さを補償し安定性を向上させる新しい学習率スケジュールを提案する。

提案手法

中心パラメータサーバーモデルを P 個の学習者と i.i.d. な各ミニバッチの実行時間 X_i で定義する。
SGD の変種を特徴付け、比較する：K-sync、K-batch-sync、K-async、K-batch-async。
順序統計量と renewal 理論を用いて反復あたりの期待実行時間を分析する。
有界遅延なし、指数的な実行時間を前提としない relaxed な仮定の下で Async および K-async SGD の収束分析を提供する。
勾配の古さに適応する変動的な学習率スケジュールを導入し、その安定性を証明する。

実験結果

リサーチクエスチョン

RQ1一般的な確率分布を持つランダムな実行時間の下で、同期・非同期SGD変種間の反復あたりの期待ウォールクロック実行時間はどう比較されるか？
RQ2Async および K-async SGD における勾配の古さの影響は収束にどのように影響し、学習率スケジュールはそれをどのように緩和できるか？
RQ3緩和された仮定（有界遅延なし、一般分布）下で、非同期SGD変種の収束保証はどうなるか？
RQ4実務と理論の観点から、K-batch-async は K-async や K-sync よりも良いエラー-実行時間のトレードオフを提供できるか？
RQ5非同期法がウォールクロック効率の点で同期法を上回るレジームはどれか？

主な発見

非同期SGDは同期SGDよりも早いウォールクロックの進行をもたらす可能性があり、遅延分布に依存する因子で P 倍の速度向上を特徴づける。
K-batch-async および K-batch-sync の変種は、アイドル時間を減らすことで実行時間の効率を改善し、収束挙動を大幅に損なうことなく実現する。
指数的な実行時間の場合、同期と非同期の実行時間の速度向上はおおよそ P log P のスケールであり、多数の学習者で実質的な利点を示す。
一般的なstaleness bounds の下での K-async SGD に対する新しい収束界は、誤差が (1 - eta c (1 - gamma + p0/2)) に依存する速度で減衰することを示す。
勾配の古さにスケールする可変学習率スケジュールは非同期SGDを安定化させ、実践的には固定率アプローチを上回ることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。