Skip to main content
QUICK REVIEW

[論文レビュー] The Hidden Vulnerability of Distributed Learning in Byzantium

El Mahdi El Mhamdi, Rachid Guerraoui|arXiv (Cornell University)|Feb 22, 2018
Stochastic Gradient Optimization Techniques参考文献 20被引用数 473
ひとこと要約

この論文は、分散 SGD におけるビザンチン耐性の集約が高次元で有効でないモデルへ訴求する可能性があることを示し、攻撃者の自由度を O(1/√d) に劇的に低減する Bulyan を導入、MNIST と CIFAR-10 で実証検証を行った。

ABSTRACT

While machine learning is going through an era of celebrated success, concerns have been raised about the vulnerability of its backbone: stochastic gradient descent (SGD). Recent approaches have been proposed to ensure the robustness of distributed SGD against adversarial (Byzantine) workers sending poisoned gradients during the training phase. Some of these approaches have been proven Byzantine-resilient: they ensure the convergence of SGD despite the presence of a minority of adversarial workers. We show in this paper that convergence is not enough. In high dimension $d \gg 1$, an adver\-sary can build on the loss function's non-convexity to make SGD converge to ineffective models. More precisely, we bring to light that existing Byzantine-resilient schemes leave a margin of poisoning of $Ω\left(f(d) ight)$, where $f(d)$ increases at least like $\sqrt{d~}$. Based on this leeway, we build a simple attack, and experimentally show its strong to utmost effectivity on CIFAR-10 and MNIST. We introduce Bulyan, and prove it significantly reduces the attackers leeway to a narrow $O( \frac{1}{\sqrt{d~}})$ bound. We empirically show that Bulyan does not suffer the fragility of existing aggregation rules and, at a reasonable cost in terms of required batch size, achieves convergence as if only non-Byzantine gradients had been used to update the model.

研究の動機と目的

  • 高次元かつ非凸設定におけるビザンチン障害下での分散 SGD のロバスト性の研究を動機づける。
  • ビザンチン耐性集約ルールの収束保証がニューラルネットワークにとって十分かどうかを評価する。
  • ℓp ベースの GAR に対する次元の呪いを利用した攻撃の存在を示す。
  • ビザンチン自由度を引き締める一般的な強化策(Bulyan)を提案し、収束を証明する。
  • MNIST と CIFAR-10 での実証的検証と計算コストのトレードオフを分析する。

提案手法

  • マスターと f 個のビザンチンワーカーを持つ分散 SGD モデルと GAR(Gradient-Aggregation Rule)を説明する。
  • 高次元の損失ランドスケープを利用して集約勾配を準最適領域へ押しやる単純な攻撃を特徴づける。
  • Bulyan を導入する。これは二段階の強化で、基盤となるビザンチン耐性ルール A を用いて勾配の集合を選択し、次に座標を座標中央値へ β-最近傍値の集約で統合する。
  • 理論的境界を証明する: (i) Bulyan は座標ごとのビザンチン自由度を O(1/√d) に削減、(ii) Bulyan は A と同じ α, f の下での収束を保持。
  • 複雑性分析を提供:Bulyan のコストはエポックあたり O((n−2f)C + dn)、実践的には GeoMed/Krum 変種では O(n^2 d) 。
  • MNIST と CIFAR-10 に対して Bulyan を Brute、Krum、GeoMed と比較し、収束速度と頑健性を検討する。

実験結果

リサーチクエスチョン

  • RQ1高次元で非凸なニューラルネットワークに対して、ビザンチン耐性勾配集約は収束を保証し得るか。
  • RQ2大規模で非凸な設定において既存の GAR は adversarial な自由度をどれほど有するか。
  • RQ3攻撃者の影響を収束を損なわずに狭める GAR の拡張を設計できるか。
  • RQ4提案する Bulyan 手法は頑健な収束を回復し、実践的な訓練速度にどのように影響するか。

主な発見

  • 既存のビザンチン耐性 GAR の収束保証は、高次元で単一のビザンチンワーカーに直面すると効果のないモデルを生み出す可能性がある。
  • ℓp ベースの GAR には Ω(f(d)) の Poisoning margin が存在し、少なくとも √d の growth を持ち、攻撃を有効にする。
  • 一般的な強化策としての Bulyan(A) は攻撃者の座標ごとの影響を O(σ/√d) に厳格に制限し、収束を維持する。
  • MNIST と CIFAR-10 の実証結果は、A(例:Krum)を用いた Bulyan が非ビザンチン的な平均化と同等の精度を達成し、提案された攻撃に耐性を示す。
  • 非ビザンチンのシナリオでは、Bulyan は収束速度のコストが控えめであり、小さなバッチサイズでピークとなるが、適切なバッチ設定で最小化できる。
  • Bulyan は (α, f)-ビザンチン耐性フレームワークの下で収束保証(ほぼ確実)を保持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。