QUICK REVIEW

[論文レビュー] On the Computation and Communication Complexity of Parallel SGD with Dynamic Batch Sizes for Stochastic Non-Convex Optimization

Hao Yu, Rong Jin|arXiv (Cornell University)|May 10, 2019

Stochastic Gradient Optimization Techniques被引用数 31

ひとこと要約

本稿では、非凸最適化のための並列確率的勾配降下法（SGD）において、動的バッチサイズスケジューリングを提案し、通信ラウンド数を著しく削減しながら最適な計算複雑度を達成する。P-L条件のもとで指数的バッチサイズ増加が可能であり、$O(1/(NT))$の収束を$O(\log T)$の通信ラウンド数で達成できることを示している。一方、Catalystに類似した手法は一般の場合に$O(1/\sqrt{NT})$の収束を$O(\sqrt{NT}\log(T/N))$のラウンド数で達成する。

ABSTRACT

For SGD based distributed stochastic optimization, computation complexity, measured by the convergence rate in terms of the number of stochastic gradient calls, and communication complexity, measured by the number of inter-node communication rounds, are two most important performance metrics. The classical data-parallel implementation of SGD over $N$ workers can achieve linear speedup of its convergence rate but incurs an inter-node communication round at each batch. We study the benefit of using dynamically increasing batch sizes in parallel SGD for stochastic non-convex optimization by charactering the attained convergence rate and the required number of communication rounds. We show that for stochastic non-convex optimization under the P-L condition, the classical data-parallel SGD with exponentially increasing batch sizes can achieve the fastest known $O(1/(NT))$ convergence with linear speedup using only $\log(T)$ communication rounds. For general stochastic non-convex optimization, we propose a Catalyst-like algorithm to achieve the fastest known $O(1/\sqrt{NT})$ convergence with only $O(\sqrt{NT}\log(\frac{T}{N}))$ communication rounds.

研究の動機と目的

分散非凸最適化における通信オーバーヘッドを低減しつつ、高速な収束レートを維持すること。
並列SGDにおける計算複雑度（SFO呼び出し回数）と通信複雑度（ノード間ラウンド数）のトレードオフを分析すること。
最小限の通信ラウンド数で線形スループットを維持できる動的バッチサイズ戦略を開発すること。
Catalystに類似したフレームワークを用いて、P-L条件を超える一般非凸問題に対しても理論的保証を拡張すること。

提案手法

指数的増加バッチサイズを用いる並列SGDの変種（アルゴリズム1）を導入し、通信頻度を低減する。
バッチサイズが$B_\tau = B_1 \rho^\tau$の形で増加する動的バッチサイズスケジュールを採用し、分散と収束のバランスを取る。
一般非凸問題に対しては、バリアンス低減と動的バッチ処理を組み合わせたCatalystに類似したアルゴリズムを提案し、通信効率を向上させる。
各通信ラウンドで$N$ワーカー間のモデル平均化を実施し、時間経過に伴いバッチサイズを増加させることで勾配の分散を低減する。
滑らかさと有界分散の仮定のもとで収束を分析し、P-L条件が$O(1/(NT))$の高速収束を可能にする。
Catalystに類似した手法では通信スキップ戦略を採用し、ラウンド数を$O(\sqrt{NT}\log(T/N))$に削減する。

実験結果

リサーチクエスチョン

RQ1並列SGDにおける動的バッチサイズスケジューリングは、著しく削減された通信ラウンド数で最適な計算複雑度を達成できるか？
RQ2P-L条件のもとで$O(1/(NT))$の収束を維持するための最小通信ラウンド数は何か？
RQ3Catalystに類似したフレームワークを非凸最適化に適応することで、収束レートを損なわず通信複雑度を低減できるか？
RQ4通信効率と収束速度の観点から、提案手法は古典的並列SGDおよびローカルSGDと比べてどのように異なるか？

主な発見

P-L条件のもとで、提案された動的バッチサイズ手法は、$O(\log T)$の通信ラウンド数で$O(1/(NT))$の収束レートを達成し、最良の既知の計算複雑度を維持しながら通信量を最小限に抑える。
一般非凸問題に対しては、Catalystに類似したアルゴリズムが$O(\sqrt{NT}\log(T/N))$の通信ラウンド数で$O(1/\sqrt{NT})$の収束を達成し、古典的並列SGDを改善する。
分散ロジスティック回帰における数値実験では、提案手法が古典的並列SGDと同等の収束を示すが、はるかに少ない通信ラウンド数を要することが確認された。
CIFAR-10におけるResNet20のディープラーニング実験では、テスト精度が古典的並列SGDと同等を維持しながら通信頻度が著しく低下した。
動的バッチサイズ戦略により、最小限の調整で線形スループットが達成され、大規模分散学習に適していることが示された。
理論的分析により、滑らかさ、不偏勾配、有界分散という標準的仮定のもとで、収束保証が維持されることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。