Skip to main content
QUICK REVIEW

[論文レビュー] Byzantine-Tolerant Machine Learning

Peva Blanchard, El Mahdi El Mhamdi|arXiv (Cornell University)|Mar 8, 2017
Privacy-Preserving Technologies in Data参考文献 19被引用数 23
ひとこと要約

本稿では、n人のワーカーから最も信頼性の高い勾配ベクトルを選択することで、最大f人のByzantine障害を耐えることができる、Byzantine耐性のある確率的勾配降下法(SGD)の更新ルールKrumを提案する。距離に基づく選択により、他のベクトルとの二乗距離の和を最小化することで、任意のワーカー行動に対しても収束を保証する。時間計算量はO(n²(d + log n))である。

ABSTRACT

The growth of data, the need for scalability and the complexity of models used in modern machine learning calls for distributed implementations. Yet, as of today, distributed machine learning frameworks have largely ignored the possibility of arbitrary (i.e., Byzantine) failures. In this paper, we study the robustness to Byzantine failures at the fundamental level of stochastic gradient descent (SGD), the heart of most machine learning algorithms. Assuming a set of $n$ workers, up to $f$ of them being Byzantine, we ask how robust can SGD be, without limiting the dimension, nor the size of the parameter space. We first show that no gradient descent update rule based on a linear combination of the vectors proposed by the workers (i.e, current approaches) tolerates a single Byzantine failure. We then formulate a resilience property of the update rule capturing the basic requirements to guarantee convergence despite $f$ Byzantine workers. We finally propose Krum, an update rule that satisfies the resilience property aforementioned. For a $d$-dimensional learning problem, the time complexity of Krum is $O(n^2 \cdot (d + \log n))$.

研究の動機と目的

  • 分散機械学習システムにおけるByzantine故障耐性の欠如に取り組むこと、特に確率的勾配降下法(SGD)フレームワークにおけるものである。
  • 平均化などの線形集約手法が、単一のByzantineワーカーに対しても脆弱であるという根本的欠陥を特定すること。
  • f人のByzantineワーカーが存在する状況でもSGDの収束を保証する耐性特性を定式化すること。これにより、更新方向が真の勾配と整合するよう保証する。
  • 非線形で距離に基づく集約ルールとして、ワーカー出力から最も一貫性のある勾配ベクトルを選択するKrumの設計と分析を行うこと。
  • m-Krumにその手法を拡張し、学習効率を向上させつつ耐性を維持すること。

提案手法

  • 選択された更新ベクトルが真の勾配と方向が一致し、統計的モーメント(4次まで)が有界であることを要求する耐性特性を提唱する。
  • 他のすべてのベクトルとの二乗距離の和を最小化するベクトルを選択することで、Byzantine入力に対して耐性を持つKrumを導入する。
  • 各ワーカーの勾配ベクトルのKrumスコアを $ \text{score}(i) = \sum_{j \neq i} \|V_i - V_j\|^2 $ として定義し、最小スコアのベクトルを選択する。
  • 選択されたベクトルをプールから削除しながら、繰り返しスコアが最小の上位m個のベクトルを選択することで、Krumをm-Krumに拡張する。
  • 勾配分布とワーカー行動に関する弱い仮定の下で、期待される更新方向が真の勾配と一致することを確率的解析により示す。
  • 選択されたベクトルが真の勾配とのなす角のコサインに下限が保たれることを証明し、$ \sin\alpha = \frac{\eta(n,f)\sqrt{d}\sigma}{\|g\|} $ で定量的に表される。ここで $ \eta(n,f) $ はnとfの関数である。

実験結果

リサーチクエスチョン

  • RQ1平均化などの線形集約手法は、分散SGDにおいて単一のByzantineワーカーに対しても耐えられるか?
  • RQ2f人のByzantineワーカーが存在する状況でも収束を保証する更新ルールに必要な最小条件は何か?
  • RQ3Krumのような非線形で距離に基づく選択ルールは、高次元パrameter空間においてByzantine耐性を達成できるか?
  • RQ4Krumの耐性は、ワーカー数やByzantine障害数の増加に伴いどのようにスケーリングするか?
  • RQ5m-Krumの変種は、Byzantine耐性を維持しつつ学習効率を向上させることができるか?

主な発見

  • 線形結合によるワーカー更新では、1人のByzantineワーカーですら平均を任意に歪めることができ、耐えられない。
  • Krumは、他のすべてのベクトルに最も近い勾配ベクトルを選択することで、Byzantineワーカーによる外れ値を効果的にフィルタリングし、収束を保証する。
  • Krumの時間計算量は $ O(n^2(d + \log n)) $ であり、中程度のnでは実用的だが、ワーカー数の増加に伴い2乗的に増加する。
  • nが大きい場合には、m-Krum関数は $ (\alpha, f) $-Byzantine耐性を有する。ここで $ \sin\alpha = \frac{\eta(n,f)\sqrt{d}\sigma}{\|g\|} $ であり、更新方向が真の勾配と一致することを保証する。
  • 耐性の境界は、ノイズの大きさ $ \sqrt{d}\sigma $ と真の勾配ノルム $ \|g\| $ の比に依存し、比が小さいほど耐性が強化される。
  • 本稿では、境界 $ 2f + 2 < n $ がタイトかどうか、および $ \eta(n,f) = O(n) $ の係数を小さくすることでスケーラビリティを向上させられるかどうかは未解決のまま残されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。