[論文レビュー] Lagrange Coded Computing: Optimal Design for Resiliency, Security and Privacy
Lagrange Coded Computing (LCC) はラグランジュ多項式を用いてデータを符号化し、ポリynomial 関数の堅牢・安全・プライバシーを備えた分散計算を実現し、最適なレジリエンシー・セキュリティ・プライバシーのトレードオフと分散線形回帰における顕著なスピードアップを達成します。
We consider a scenario involving computations over a massive dataset stored distributedly across multiple workers, which is at the core of distributed learning algorithms. We propose Lagrange Coded Computing (LCC), a new framework to simultaneously provide (1) resiliency against stragglers that may prolong computations; (2) security against Byzantine (or malicious) workers that deliberately modify the computation for their benefit; and (3) (information-theoretic) privacy of the dataset amidst possible collusion of workers. LCC, which leverages the well-known Lagrange polynomial to create computation redundancy in a novel coded form across workers, can be applied to any computation scenario in which the function of interest is an arbitrary multivariate polynomial of the input dataset, hence covering many computations of interest in machine learning. LCC significantly generalizes prior works to go beyond linear computations. It also enables secure and private computing in distributed settings, improving the computation and communication efficiency of the state-of-the-art. Furthermore, we prove the optimality of LCC by showing that it achieves the optimal tradeoff between resiliency, security, and privacy, i.e., in terms of tolerating the maximum number of stragglers and adversaries, and providing data privacy against the maximum number of colluding workers. Finally, we show via experiments on Amazon EC2 that LCC speeds up the conventional uncoded implementation of distributed least-squares linear regression by up to $13.43\times$, and also achieves a $2.36\times$-$12.65\times$ speedup over the state-of-the-art straggler mitigation strategies.
研究の動機と目的
- 大規模データセット上の分散計算を、スロー要因・敵対者・プライバシー問題を想定して動機づける。
- ラグランジュ多項式を用いたポリゴン関数の universal coded computing フレームワークを提案する。
- このフレームワークの下でレジリエンシー・セキュリティ・プライバシーの最適なトレードオフを特徴づける。
- クラウド基盤上での分散最小二乗法による線形回帰の実用的な性能向上を実証する。
提案手法
- 入力データセットをラグランジュ多項式で符号化し、ワーカー用の符号化データを作成する。
- 各ワーカーは自分の符号化入力に対して f( ilde{X}_i) を計算する。ここで f は任意の多変量多項式である。
- マスターの結果を多項式補間を用いてデコードし、最大で S のスロー要因、A の敵対者、T の共謀ワーカーを許容する。
- 到達可能な領域 (S,A,T) を不等式 (K+T-1) deg f + S + 2A + 1 ≤ N で証明し、最適性を示す。
- BGW 系のプライベートMPCスキームと比較して LCC が乱数とストレージをいかに削減しつつ、ポリゴン計算への普遍的適用性を可能にするかを説明する。
- 線形回帰の実用的な実装を提示し、Amazon EC2 上でのスピードアップを検証する。
実験結果
リサーチクエスチョン
- RQ1LCC において、ある N, K, 多項式次数の組に対して、最大許容スロー要因 S、敵対者 A、共謀ワーカー T はいくつになるのか(S, A, T)?
- RQ2LCC は一般的な多線形/多項式計算に対して最適なレジリエンシー・セキュリティ・プライバシーのトレードオフを達成し、タスク間で普遍性を保てるか?
- RQ3実践的な分散学習タスク(例:線形回帰)における LCC の性能は、符号化なしや既存のスロー対策法と比較してどうか?
- RQ4従来の安全/プライベートな符号化方式(例:BGW)に対する LCC のストレージ・乱数・計算の利点は何か?
主な発見
- LCC は K 個の入力に対して (K+T-1) deg f + S + 2A + 1 ≤ N の条件の下で、f(X_i) を計算するための S 耐障害性・A 安全性・T 秘匿性を満たすスキームを提供する。
- LCC は deg f のランダムパディングを T·deg f のみで実現するワンショット符号化により、共謀ワーカーに対するデータプライバシーを向上させる。
- LCC は一度の符号化で普遍性を提供し、補間によって任意のポリゴン計算を実現し、ワーカーロードを低減する。
- 線形回帰において、LCC は AWS EC2 実験で符号化なし、勾配符号化(GC)、および行列-ベクトル乗算(MVM)スキームに比べて実行時間を大幅に改善した。
- 経験的には、分散最小二乗回帰を符号化なしと比べ最大 13.43 倍速く、GC 比で 2.36 倍〜4.29 倍、MVM 比で 1.01 倍〜12.65 倍の速度向上を達成した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。