[論文レビュー] DRACO: Byzantine-resilient Distributed Training via Redundant Gradients
DRACOは、悪意ある計算ノードを耐えるために符号理論的冗長性を用いるバシルリン耐性分散学習フレームワークであり、敵対者なしの学習と同一のモデルを維持する。勾配を誤り訂正可能な再結合によって符号化する冗長比を用いることで、幾何的中央値ベースの手法と比較して、順序数の速さで学習を達成し、実世界の環境では最小限のオーバーヘッドで実現する。
Distributed model training is vulnerable to byzantine system failures and adversarial compute nodes, i.e., nodes that use malicious updates to corrupt the global model stored at a parameter server (PS). To guarantee some form of robustness, recent work suggests using variants of the geometric median as an aggregation rule, in place of gradient averaging. Unfortunately, median-based rules can incur a prohibitive computational overhead in large-scale settings, and their convergence guarantees often require strong assumptions. In this work, we present DRACO, a scalable framework for robust distributed training that uses ideas from coding theory. In DRACO, each compute node evaluates redundant gradients that are used by the parameter server to eliminate the effects of adversarial updates. DRACO comes with problem-independent robustness guarantees, and the model that it trains is identical to the one trained in the adversary-free setup. We provide extensive experiments on real datasets and distributed setups across a variety of large-scale models, where we show that DRACO is several times, to orders of magnitude faster than median-based approaches.
研究の動機と目的
- 分散学習におけるバシルリン障害および悪意ある計算ノードによる悪意ある勾配の注入という脆弱性に対処すること。
- 大規模環境における幾何的中央値ベースの集約の prohibitively 高い計算コストを克服すること。
- 問題に依存しない耐性保証を提供し、敵対者なしの学習と同一の収束を達成すること。
- さまざまな最適化アルゴリズム(例:SGD、GD、SVRG)に適用可能なスケーラブルで効率的なフレームワークを設計すること。
提案手法
- 各計算ノードに複数の冗長勾配を割り当てることでアルゴリズム的冗長性を導入し、ノードごとの計算負荷を冗長比 r で増加させる。
- 分数再帰または巡回再帰符号を用いて勾配更新を符号化し、パラメータサーバーで誤り検出および訂正を可能にする。
- 多数決デコーダーまたは新規のフーリエベースのデコーディング技術を用いて、最大 (r−1)/2 個の敵対的ノードが存在しても正しい勾配和を回復する。
- 最終的なモデルが敵対者なしの学習と同一になるように保証し、ブラックボックス収束保証を可能にする。
- 敵対的耐性における情報理論的最適性を達成するように冗長比 r をチューニングする。
- PyTorch にフレームワークを実装し、Amazon EC2 にデプロイして、多様なモデルとデータセットにおける実世界の評価を実施する。
実験結果
リサーチクエスチョン
- RQ1幾何的中央値ベースの手法と比較して、計算オーバーヘッドを最小限に抑えた分散学習システムがバシルリン耐性を達成できるか?
- RQ2敵対者なしの状況と同一のモデルを維持しながら、悪意ある更新を耐えるフレームワークを設計できるか?
- RQ3符号理論的技術が、最悪の敵対的状況下でも効率的かつスケーラブルな勾配集約を可能にできるか?
- RQ4提案手法の冗長性ベースの方法の性能は、敵対的ノード数およびモデルの複雑さの増加に伴いどのようにスケーリングするか?
- RQ5実際の分散環境における冗長比とエンドツーエンドの学習速度のトレードオフは何か?
主な発見
- DRACOは幾何的中央値ベースの手法と比較して、学習時間を最大で順序数の速さに短縮し、GM手法のデコーディングコストが学習時間の主因を占める。
- 11.1% の敵対的ノードを伴うResNet-152では、DRACOの巡回符号化方式が1イタレーションあたり23.08秒を達成したのに対し、GM手法は212.31秒を要した。
- VGG-19では、DRACOの巡回符号化方式が1イタレーションあたり3.08秒、GM手法は74.63秒を要し、デコーディングオーバーヘッドで24倍の高速化を達成した。
- DRACOの総実行時間は敵対的ノード数の増加に伴いわずかに増加するが、通信コストが主因であるため、46.7%の敵対的ノードでも安定した性能を維持する。
- DRACOにおける符号化およびデコーディングのオーバーヘッドは、幾何的中央値計算に比べて無視できるほど小さく、大規模システムにおいて実用的である。
- DRACOは冗長性において情報理論的最適性を達成しており、最大 (r−1)/2 個の敵対的ノードを耐えるために必要な最小限の冗長量を要する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。