QUICK REVIEW

[論文レビュー] Redundancy Techniques for Straggler Mitigation in Distributed Optimization and Learning

Can Karakus, Yifan Sun|arXiv (Cornell University)|Mar 14, 2018

Sparse and Compressive Sensing Techniques参考文献 26被引用数 40

ひとこと要約

エンコードされたデータ冗長性を追加する分散最適化フレームワークを導入し、各イテレーションで m 個のワーカーのうち最速の k 個だけを使用するようにする。データ並列性およびモデル並列性の下で、勾配降下法、L-BFGS、近似勾配、ブロック座標降下法の収束保証を提供。

ABSTRACT

Performance of distributed optimization and learning systems is bottlenecked by "straggler" nodes and slow communication links, which significantly delay computation. We propose a distributed optimization framework where the dataset is "encoded" to have an over-complete representation with built-in redundancy, and the straggling nodes in the system are dynamically left out of the computation at every iteration, whose loss is compensated by the embedded redundancy. We show that oblivious application of several popular optimization algorithms on encoded data, including gradient descent, L-BFGS, proximal gradient under data parallelism, and coordinate descent under model parallelism, converge to either approximate or exact solutions of the original problem when stragglers are treated as erasures. These convergence results are deterministic, i.e., they establish sample path convergence for arbitrary sequences of delay patterns or distributions on the nodes, and are independent of the tail behavior of the delay distribution. We demonstrate that equiangular tight frames have desirable properties as encoding matrices, and propose efficient mechanisms for encoding large-scale data. We implement the proposed technique on Amazon EC2 clusters, and demonstrate its performance over several learning problems, including matrix factorization, LASSO, ridge regression and logistic regression, and compare the proposed method with uncoded, asynchronous, and data replication strategies.

研究の動機と目的

分散最適化と学習におけるストラスラーによる遅延を動機づけ、対処する。
欠落した更新を補償する過完備表現を作成するエンコードフレームワークを提案する。
データ並列性およびモデル並列性の下で、一般的なアルゴリズムのエンコード版を開発・分析する。
任意の遅延パターンやテイル分布に頑健な決定論的収束保証を提供する。
クラウドクラスタでの実験を通じて実用的な性能を示し、非エンコード、レプリケーション、非同期戦略と比較する。

提案手法

データセットを過完備変換Sでエンコードし、冗長性係数βを持つ長方行列エンコードを得る。
データ並列性では、エンコードされた問題 ˜f(w) = (1/2n) ||S(Xw - y)||^2 + λh(w) を解く際、m 個のワーカーから最初の k_t 個の更新を待機し、それ以外を消失として扱う更新を用いる。
モデル並列性では、問題を w = S^T v にリフトし、˜g(v) = φ(XS^T v) を、ワーカー間で冗長な座標を用いて解く。
エンコードフレームワーク内で、勾配降下法、限定記憶のBFGS、近似勾配、ブロック座標降下法の具体的なアルゴリズム形を提供する。
S に対してスペクトラル BRIP (block-restricted isometry property) を課して収束を保証し、遅延テイル挙動に依存しない決定論的サンプルパス収束結果を導出する。
任意の遅延パターンの下で安定なヘッセ行列推定と収束を保証するステップサイズ規則、オーバーラップ要件、および更新規則を提示する。

実験結果

リサーチクエスチョン

RQ1エンコードされた分散最適化フレームワークは、任意の遅延パターンの下で、遅延テール分布についての仮定なしに元の目的関数へ収束を保証しますか？
RQ2異なるアルゴリズム（勾配降下法、L-BFGS、近似勾配、ブロック座標降下法）の収束を保証するために、エンコーディング行列 S はどのようなスペクトル特性（BRIP）を満たす必要がありますか？
RQ3冗長性係数βと選択された k_t（または η）は、データ並列性とモデル並列性における近似精度と収束にどのように影響しますか？
RQ4実用的な学習問題において、エンコードされたアルゴリズムは、非エンコード、非同期、およびレプリケーション戦略と比較して、スピードアップと解の品質の点でどうですか？
RQ5モデル並列性の下で正確な収束は達成可能ですか、データ並列性の下でのトレードオフは何ですか？

主な発見

エンコードされた方法は、勾配降下法、L-BFGS、近似勾配、ブロック座標降下法に跨るエンコード問題に対して決定論的な収束保証を提供する。
S の BRIP-type 条件の下で、勾配降下法は平均で 1/t の収束率を達成し、強凸の場合には ε依存の近似まで線形収束する。
BRIP と追加のオーバーラップ条件の下で、エンコード版 L-BFGS は最適解へ線形収束を提供し、安定な逆ヘッセ行列推定を得る。
エンコードされた近似勾配は、BRIPと適切なステップサイズの下で、平均で 1/t 収束を維持し、反復を通じて関数値が非増加になることを保つ。
エンコードされたブロック座標降下法は、凹凸問題に対して標準の 1/t 速度を達成し、制限付き強凸性の下で線形収束を実現し、モデル並列性の下で正確な最小値ポテンシャルを持つ。
Amazon EC2上の実験は、マトリックス分解、LASSO、リッジ回帰、ロジスティック回帰などのタスクで、非エンコード、レプリケーション、および非同期のベースラインに対して顕著な速度向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。