Skip to main content
QUICK REVIEW

[論文レビュー] Asynchronous Accelerated Proximal Stochastic Gradient for Strongly Convex Distributed Finite Sums

Hadrien Hendrikx, Francis Bach|arXiv (Cornell University)|Jan 28, 2019
Stochastic Gradient Optimization Techniques参考文献 37被引用数 22
ひとこと要約

本稿では、ネットワーク上のノード群に分散された強い凸有限和を最小化するための分散型、非同期的、加速型確率的勾配法であるADFSを提案する。この手法は、バッチ法と比較して最適な $O(\sqrt{m})$ の加速を達成し、単一マシンの有限和最適化で達成可能な最良のレートに匹敵する線形収束を実現する。また、通信オーバーヘッドが低く、分散環境でも効率的にスケーリング可能である。

ABSTRACT

In this work, we study the problem of minimizing the sum of strongly convex functions split over a network of $n$ nodes. We propose the decentralized and asynchronous algorithm ADFS to tackle the case when local functions are themselves finite sums with $m$ components. ADFS converges linearly when local functions are smooth, and matches the rates of the best known finite sum algorithms when executed on a single machine. On several machines, ADFS enjoys a $O (\sqrt{n})$ or $O(n)$ speed-up depending on the leading complexity term as long as the diameter of the network is not too big with respect to $m$. This also leads to a $\sqrt{m}$ speed-up over state-of-the-art distributed batch methods, which is the expected speed-up for finite sum algorithms. In terms of communication times and network parameters, ADFS scales as well as optimal distributed batch algorithms. As a side contribution, we give a generalized version of the accelerated proximal coordinate gradient algorithm using arbitrary sampling that we apply to a well-chosen dual problem to derive ADFS. Yet, ADFS uses primal proximal updates that only require solving one-dimensional problems for many standard machine learning applications. Finally, ADFS can be formulated for non-smooth objectives with equally good scaling properties. We illustrate the improvement of ADFS over state-of-the-art approaches with simulations.

研究の動機と目的

  • 大規模なデータ量を伴うネットワーク上のノードに分散された強い凸関数の和を最小化する課題に対処すること。
  • 非同期的、分散型、加速型の更新を可能にすることで、確率的最適化と分散最適化のギャップを埋めること。
  • 単一マシンの有限和最適化アルゴリズムと同等の最適な収束レートを達成するとともに、分散環境でも効率的にスケーリングすること。
  • 中程度の直径を持つネットワークにおいても、強力な収束保証と通信効率を維持する手法を提供すること。

提案手法

  • ADFSは、双対問題に適用された任意のサンプリングを用いた加速型プロキシマル座標勾配法を用い、プライマル更新を導出する。
  • ノード同士が隣接ノードとのみ通信する非同期的で分散型の更新を採用し、中央サーバーのボトルネックを回避する。
  • 多くの一般的な機械学習問題において、1次元のプロキシマル更新を用いることで、1反復あたりの計算コストを低減する。
  • ネットワークおよび計算パラメータに応じて、計算ステップと通信ステップの割合を動的に調整することで、計算と通信のバランスを取る。
  • スペクトルギャップと混合時間に関する境界を用いて、任意のサンプリング下での加速型プロキシマル法の一般化された解析を通じて収束レートを導出する。
  • 滑らかでない目的関数に対しても、滑らかでない場合と滑らかな場合の両方において、強いスケーリング特性を維持するように手法を定式化する。

実験結果

リサーチクエスチョン

  • RQ1強い凸有限和に対して線形収束を達成する分散型、非同期的、加速型確率的勾配法を設計できるか?
  • RQ2ADFSは分散環境において、バッチ法と比較して最適な $O(\sqrt{m})$ の加速を達成するか?
  • RQ3ADFSはネットワークの直径、通信遅延 $\tau$、混合時間 $\gamma^{-1}$ に対してどのようにスケーリングするか?
  • RQ4非同期処理と部分的更新が存在する状況でも、高速な収束と低い通信オーバーヘッドを維持できるか?
  • RQ5滑らかでない目的関数に対しても、望ましい収束性とスケーリング特性を保持できるか?

主な発見

  • 滑らかで強い凸な局所関数に対してADFSは線形収束を示し、単一マシンの有限和最適化で達成可能な最良のレートに一致する。
  • 複数のマシン上で、ネットワークの直径が $m$ に対してあまりに大きくない限り、計算量の主な項に依存して $O(\sqrt{n})$ または $O(n)$ の加速を達成する。
  • ADFSは、最先端の分散バッチ法と比較して $\sqrt{m}$ の加速を提供する。これは有限和アルゴリズムにおける期待される加速である。
  • 通信時間およびネットワークパラメータの観点から、ADFSは最適な分散バッチアルゴリズムと同等にスケーリングする。
  • 滑らかでない目的関数に対しても、滑らかな場合と同様に、望ましいスケーリング特性を維持する。
  • シミュレーションにより、ADFSが既存の最先端手法よりも収束速度とスケーラビリティの面で優れていることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。