Skip to main content
QUICK REVIEW

[論文レビュー] Zeno: Distributed Stochastic Gradient Descent with Suspicion-based Fault-tolerance

Cong Xie, Oluwasanmi Koyejo|arXiv (Cornell University)|May 25, 2018
Stochastic Gradient Optimization Techniques被引用数 83
ひとこと要約

Zenoは、任意に多くの故障ワーカーを許容する疑いベースのアグリゲーション則を分散SGDに導入し、少なくとも1つの非故障ワーカーのみを要求し、非凸目的関数の収束性を証明する。

ABSTRACT

We present Zeno, a technique to make distributed machine learning, particularly Stochastic Gradient Descent (SGD), tolerant to an arbitrary number of faulty workers. Zeno generalizes previous results that assumed a majority of non-faulty nodes; we need assume only one non-faulty worker. Our key idea is to suspect workers that are potentially defective. Since this is likely to lead to false positives, we use a ranking-based preference mechanism. We prove the convergence of SGD for non-convex problems under these scenarios. Experimental results show that Zeno outperforms existing approaches.

研究の動機と目的

  • 多数の故障仮定を超える耐故障分散SGDの動機づけ。
  • ビザンチン様の故障を扱う疑いベースのアグリゲーション機構を開発。
  • 任意の故障パターンの下で非凸目的関数に対するSGDの収束を証明。
  • 標準ベンチマークと分散データ設定の非重複データで経験的な頑健性と実用性を示す。

提案手法

  • 各候補勾配を疑いとし、確率的ゼロ次オラクルで評価する。
  • 推定損失の降下と更新量を組み合わせた確率的なデセンダントスコアを定義。
  • スコアで勾配推定器をランク付けし、上位 m-b 個の推定値を Zeno_b で集約。
  • 特定の条件の下で故障のない分散SGDと同じ漸近的レートを示す収束保証を証明。
  • 時間計算量を分析し、Mean、Median、Krum などのベースラインと比較。
  • ワーカー間で分離された非同一分布データへの解析を拡張。

実験結果

リサーチクエスチョン

  • RQ1少なくとも1つが非故障である限り、任意の数のワーカーが故障していても非凸目的関数のSGDは収束するか?
  • RQ2疑いベースのアグリゲーション(Zeno)はビザンチン様の故障下で故障なしSGDと同等の収束速度を達成するか?
  • RQ3さまざまな故障モデルとデータ分布の下で、Zenoは既存の堅牢なアグリゲーションと比較して経験的にどうか?

主な発見

  • Zenoは故障なしの分散同期SGDと同じ漸近的時間計算量で収束する。
  • 故障が存在する場合、ラベル反転やビット反転等を含むシナリオでZenoはベースラインを上回ることを経験的に示す。
  • Zenoは分離された局所データにも有効であり、n_r、ρ、b などのハイパーパラメータの選択に頑健である。
  • この手法は半分を超える勾配故障を耐性があり、いくつかのベースラインが失敗する箇所でも安定性を保つ。
  • 故障が支配的でない場合にはZenoの性能は故障なしSGDに近づき、いくつかの故障シナリオでKrumを上回ることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。