Skip to main content
QUICK REVIEW

[論文レビュー] Parallel Restarted SGD for Non-Convex Optimization with Faster Convergence and Less Communication.

Hao Yu, Sen Yang|arXiv (Cornell University)|Jul 17, 2018
Stochastic Gradient Optimization Techniques参考文献 15被引用数 50
ひとこと要約

本稿では、大規模な非凸最適化問題に対する通信効率の高い最適化手法である Parallel Restarted SGD を提案する。この手法は、周期的な再起動時にのみモデル平均を交換することで、相互のワーカー間の通信を削減する。古典的な並列ミニバッチSGDと同等の収束速度を達成するとともに、通信オーバーヘッドを $O(T^{1/4})$ 倍低減し、深層学習におけるモデル平均化の実験的成功の理論的裏付けを提供する。

ABSTRACT

For large scale non-convex stochastic optimization, parallel mini-batch SGD using multiple workers ideally can achieve a linear speed-up with respect to the number of workers compared with SGD over a single worker. However, such linear scalability in practice is significantly limited by the growing demand for communication as more workers are involved. This is because the classical parallel mini-batch SGD requires gradient or model exchanges between workers (possibly through an intermediate server) at every iteration. In this paper, we study whether it is possible to maintain the linear speed-up property of parallel mini-batch SGD by using less frequent message passing between workers. We consider the parallel restarted SGD method where each worker periodically restarts its SGD by using the node average as a new initial point. Such a strategy invokes inter-node communication only when computing the node average to restart local SGD but otherwise is fully parallel with no communication overhead. We prove that the parallel restarted SGD method can maintain the same convergence rate as the classical parallel mini-batch SGD while reducing the communication overhead by a factor of $O(T^{1/4})$. The parallel restarted SGD strategy was previously used as a common practice, known as model averaging, for training deep neural networks. Earlier empirical works have observed that model averaging can achieve an almost linear speed-up if the averaging interval is carefully controlled. The results in this paper can serve as theoretical justifications for these empirical results on model averaging and provide practical guidelines for applying model averaging.

研究の動機と目的

  • 大規模な非凸最適化における並列ミニバッチSGDの通信ボトルネックを解消すること。
  • 通信頻度を低減しても線形的なスケーリングアップを維持し、収束速度を損なわずに可能かどうかを調査すること。
  • 深層学習におけるモデル平均化の実験的成功の理論的裏付けを提供すること。
  • 頻繁な局所更新と稀な同期を可能にする手法を設計し、スケーラビリティを向上させること。

提案手法

  • 各ワーカーは反復間で通信を行わず、独立して局所的なSGD更新を実行する。
  • 定期的な間隔で、ワーカー同士がモデルを交換し、平均化して新たなグローバル初期化点を計算する。
  • 各ワーカーは平均化されたモデルから再起動し、局所的なSGDを再開することで、数反復ごとに進行状況を同期化する。
  • この手法は、周期的な再起動を活用して、継続的な勾配交換なしに収束を維持する。
  • 理論的分析により、標準的な仮定の下で、収束速度が古典的な並列ミニバッチSGDと同等であることが示された。
  • 通信はモデル平均化ステップでのみ発生し、全頻度法と比較して合計通信量が $O(T^{1/4})$ 倍低減された。

実験結果

リサーチクエスチョン

  • RQ1並列SGDにおける通信頻度の低減が、古典的な並列ミニバッチSGDと同等の収束速度を維持できるか。
  • RQ2非凸最適化における周期的モデル平均化の収束に与える理論的影響は何か。
  • RQ3通信頻度が並列SGDのスケーラビリティとスルーブラストに与える影響は何か。
  • RQ4モデル平均化の観察された実験的成功は、理論的に裏付けられるか。

主な発見

  • 提案された Parallel Restarted SGD は、標準的な非凸最適化仮定の下で、古典的な並列ミニバッチSGDと同等の収束速度を達成する。
  • 通信オーバーヘッドは、全通信並列SGDと比較して $O(T^{1/4})$ 倍低減された。ここで $T$ は反復回数を表す。
  • 通信頻度が低くても、ワーカー数に応じた線形的なスケーリングアップを維持する。
  • 理論的分析により、再起動を伴う周期的モデル平均化が収束に十分であることが確認され、深層学習の学習における応用を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。