QUICK REVIEW

[論文レビュー] On the Linear Speedup Analysis of Communication Efficient Momentum SGD for Distributed Non-Convex Optimization

Hao Yu, Rong Jin|arXiv (Cornell University)|May 9, 2019

Stochastic Gradient Optimization Techniques被引用数 147

ひとこと要約

この論文は、モーメントを用いた並列再起動SGDが、素の分散SGDと同じ O(1/√(NT)) の収束（線形スピードアップ）を達成する一方で、通信ラウンドを大幅に削減する、穏やかな仮定の下であることを示している。

ABSTRACT

Recent developments on large-scale distributed machine learning applications, e.g., deep neural networks, benefit enormously from the advances in distributed non-convex optimization techniques, e.g., distributed Stochastic Gradient Descent (SGD). A series of recent works study the linear speedup property of distributed SGD variants with reduced communication. The linear speedup property enable us to scale out the computing capability by adding more computing nodes into our system. The reduced communication complexity is desirable since communication overhead is often the performance bottleneck in distributed systems. Recently, momentum methods are more and more widely adopted in training machine learning models and can often converge faster and generalize better. For example, many practitioners use distributed SGD with momentum to train deep neural networks with big data. However, it remains unclear whether any distributed momentum SGD possesses the same linear speedup property as distributed SGD and has reduced communication complexity. This paper fills the gap by considering a distributed communication efficient momentum SGD method and proving its linear speedup property.

研究の動機と目的

分散非凸最適化におけるモーメントSGDの線形スピードアップの研究動機を与える。
モーメントを用いた平行再起動SGD（PR-SGD-Momentum）を分析し、その収束性と通信効率を確立する。
減少した通信量を保ちつつ、モーメントをどのように組み込むかを示す。
提案された枠組みの下で、PolyakのモーメントとNesterovのモーメントの双方が類似の収束特性を共有することを示す。

提案手法

滑らかさと分散分散異質性の仮定1の下で問題（1）を研究する。
二つのモーメントオプション（PolyakとNesterov）を備えた並列再起動SGD with Momentum（アルゴリズム1）を提案する。
勾配が周期的に集約されるとき、ノード平均化された反復 bar{x}^{(t)} がモーメント付きSGD風の動的に従うことを示す。
学習率 γ、モーメント β、同期間隔 I に依存することを示すオプションI（Polyakのモーメント）についての収束境界を導出する。
オプションII（Nesterovのモーメント）にも分析を拡張し、同様のレート結果を示す。
二つの系統的帰結を提供する： (i) γ = √N/√T および I=1 のとき線形スピードアップ、(ii) 同一データの場合は O(N^{3/2}T^{1/2}) ラウンド、非同一データの場合は O(N^{3/4}T^{3/4}) の通信ラウンドで線形スピードアップを達成。

実験結果

リサーチクエスチョン

RQ1分散モーメントSGDは、非凸設定においてモーメントなしの分散SGDと同じ線形スピードアップ（O(1/√(NT))）を達成できるか。
RQ2通信間隔 I は収束にどう影響し、スピードアップを損なうことなく短縮できるか。
RQ3提案された枠組みの下で、PolyakとNesterovのモーメントは同じ次数の収束をもたらすか。
RQ4同一データと非同一データのシナリオで、モーメントベースの分散トレーニングの通信ラウンドの複雑さはどうなるか。
RQ5分散型通信は線形スピードアップ特性にどのように影響するか。

主な発見

PR-SGD-Momentum は Assumption 1 の下で適切な γ および I を用いれば O(1/√(NT)) の収束、すなわち線形スピードアップを達成する。
同一データ（κ=0）の場合、T 回の反復で線形スピードアップを保持するには通信ラウンドが O(N^{3/2}T^{1/2}) 必要。
非同一データ（κ>0）の場合、T 回の反復で線形スピードアップを保つには通信ラウンドが O(N^{3/4}T^{3/4}) 必要。
Polyak のモーメントと Nesterov のモーメントの両方が一定の定数まで同じ収束速度をもたらし、同じ線形スピードアップ特性を共有する。
分散型通信（アルゴリズム2）も Assumptions 1 と 2 の下で線形スピードアップを達成し、適切な γ と標準的な混合条件（ρ）下で O(1/√(NT)) の収束を示す。
CIFAR-10 を用いた ResNet-56 の実験は、より速い収束を検証し、通信スキップモーメント法の実務的利点を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。