Skip to main content
QUICK REVIEW

[論文レビュー] Polynomially Coded Regression: Optimal Straggler Mitigation via Data Encoding

Songze Li, Seyed Mohammadreza Mousavi Kalan|arXiv (Cornell University)|May 24, 2018
Distributed Sensor Networks and Detection Algorithms参考文献 20被引用数 48
ひとこと要約

PCRは各ワーカーにデータをエンコードして多項式補間による勾配計算を可能にし、分散最小二乗回帰のストラグラー耐性回復閾値を劇的に引き下げる。

ABSTRACT

We consider the problem of training a least-squares regression model on a large dataset using gradient descent. The computation is carried out on a distributed system consisting of a master node and multiple worker nodes. Such distributed systems are significantly slowed down due to the presence of slow-running machines (stragglers) as well as various communication bottlenecks. We propose "polynomially coded regression" (PCR) that substantially reduces the effect of stragglers and lessens the communication burden in such systems. The key idea of PCR is to encode the partial data stored at each worker, such that the computations at the workers can be viewed as evaluating a polynomial at distinct points. This allows the master to compute the final gradient by interpolating this polynomial. PCR significantly reduces the recovery threshold, defined as the number of workers the master has to wait for prior to computing the gradient. In particular, PCR requires a recovery threshold that scales inversely proportionally with the amount of computation/storage available at each worker. In comparison, state-of-the-art straggler-mitigation schemes require a much higher recovery threshold that only decreases linearly in the per worker computation/storage load. We prove that PCR's recovery threshold is near minimal and within a factor two of the best possible scheme. Our experiments over Amazon EC2 demonstrate that compared with state-of-the-art schemes, PCR improves the run-time by 1.50x ~ 2.36x with naturally occurring stragglers, and by as much as 2.58x ~ 4.29x with artificial stragglers.

研究の動機と目的

  • 最小二乗回帰の分散勾配降下法における遅いストラグラーと通信ボトルネックを動機づけ、対処する。
  • 勾配回復閾値を減らすデータエンコード型スキームの開発。
  • Amazon EC2での実験を通じて理論的最適性保証と実用的な利得を示す。
  • カーネルトリックを用いてカーネル化/非線形回帰問題への適用拡張。
  • 従来の勾配コード方式との計算量比較を提供。

提案手法

  • データをワーカー間でエンコードし、各ワーカーがコード化された部分行列を通じて多項式評価を計算する。
  • 各ワーカーで次数が 2⟨n/r⟩−2 の多項式を用い、最速の 2⟨n/r⟩−1 ワーカーから補間して全勾配を回復する。
  • 回復閾値 KPCR(r)=2⌈n/r⌉−1 を達成し、下限 K*(r) の2倍以内である。
  • 任意のスキームが少なくとも ⌈n/r⌉ ワーカーを必要とする下界を示し、したがってこの2倍のギャップはほぼ最適である。
  • 回復閾値、デコードの計算量、通信の観点でPCRと勾配コード(GC)を比較する。
  • GC、ナイーブ、BCC方式に対するAmazon EC2実験を通じて実践的な利得を示す。

実験結果

リサーチクエスチョン

  • RQ11ワーカーあたりの固定ストレージ/計算負荷 r の下で、コーディッド分散回帰で達成可能な最小の回復閾値はどれか?
  • RQ2勾配コーディング手法を超えて、マスターの勾配待機時間を削減するデータエンコード型スキームを設計できるか?
  • RQ3実在の分散環境で、既存のストラグラ対策スキームと比較してPCRは実践的にどう動作するか?
  • RQ4PCRのアイデアはカーネルを用いた非線形回帰へ拡張してストラグラー耐性を維持できるか?
  • RQ5勾配降下法の反復におけるPCRとGCの計算・通信のトレードオフはどのようか?

主な発見

# ワーカー# 処理済みバッチ実行時間各ワーカーで方法ノート
401016.821 sGCSubtable 1: GC vs PCR with 40 workers, r=10
40103.925 sPCRSubtable 1: GC vs PCR with 40 workers, r=10
401016.821 sGCSubtable 2: GC vs PCR with 40 workers, r=10
40103.925 sPCRSubtable 2: GC vs PCR with 40 workers, r=10
  • PCRは回復閾値 KPCR(r)=2⌈n/r⌉−1 を達成し、GC の n−r+1 よりも約 r/2 倍改善。
  • ほぼ最適な下界が示され、どのスキームでも少なくとも ⌈n/r⌉ ワーカーが必要なことから、PCRは最適性の2倍の因子内にある。
  • PCRのデコーディング計算量は O(d(n/r) log^2(n/r) log log(n/r)) にスケールし、固定 r で n に依存して増加しないのに対し、GC は増加する。
  • Amazon EC2 での実験では、自然なストラグラーで GC より1.50×–2.36×速く、人工ストラグラーで2.58×–4.29×速くなる。
  • PCRは結果を得るワーカー数を減らす(2⌈n/r⌉−1)ことにより、各反復の通信を削減する。
  • PCR はデータ行列へカーネルトリックを適用することで、カーネル法を用いた非線形回帰へ拡張可能。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。