[论文解读] Lagrange Coded Computing: Optimal Design for Resiliency, Security and Privacy
Lagrange Coded Computing (LCC) 使用拉格朗日多项式对数据进行编码,以实现对多项式函数的鲁棒、安全和私有分布式计算,达到最佳的鲁棒性-安全性-隐私权衡,并在分布式线性回归中获得显著的加速。
We consider a scenario involving computations over a massive dataset stored distributedly across multiple workers, which is at the core of distributed learning algorithms. We propose Lagrange Coded Computing (LCC), a new framework to simultaneously provide (1) resiliency against stragglers that may prolong computations; (2) security against Byzantine (or malicious) workers that deliberately modify the computation for their benefit; and (3) (information-theoretic) privacy of the dataset amidst possible collusion of workers. LCC, which leverages the well-known Lagrange polynomial to create computation redundancy in a novel coded form across workers, can be applied to any computation scenario in which the function of interest is an arbitrary multivariate polynomial of the input dataset, hence covering many computations of interest in machine learning. LCC significantly generalizes prior works to go beyond linear computations. It also enables secure and private computing in distributed settings, improving the computation and communication efficiency of the state-of-the-art. Furthermore, we prove the optimality of LCC by showing that it achieves the optimal tradeoff between resiliency, security, and privacy, i.e., in terms of tolerating the maximum number of stragglers and adversaries, and providing data privacy against the maximum number of colluding workers. Finally, we show via experiments on Amazon EC2 that LCC speeds up the conventional uncoded implementation of distributed least-squares linear regression by up to $13.43 imes$, and also achieves a $2.36 imes$-$12.65 imes$ speedup over the state-of-the-art straggler mitigation strategies.
研究动机与目标
- 在存在慢请求、对手和隐私担忧的大规模数据集上,推动分布式计算。
- 提出一种使用拉格朗日多项式来实现多项式函数的通用编码计算框架。
- 在该框架下刻画鲁棒性、对安全性和隐私之间的最优权衡。
- 在人云基础设施上的分布式最小二乘线性回归中展示实际性能提升。
提出的方法
- 使用拉格朗日多项式对输入数据集进行编码,以为工作节点创建编码数据集。
- 让每个工作节点对其编码输入计算 f(\tilde{X}_i),其中 f 是任意多元多项式。
- 通过多项式插值解码主控的结果,容忍最多 S 个慢节点、A 个对手和 T 个共谋工作节点。
- 通过不等式 (K+T-1)deg f + S + 2A + 1 ≤ N 证明可达区域 (S,A,T) 并展示其最优性。
- 解释相较于基于 BGW 的私有 MPC 方案,LCC 如何降低随机性和存储需求,同时实现对多项式计算的通用适用性。
- 给出线性回归的实际实现实例,并在 Amazon EC2 上验证加速效果。
实验结果
研究问题
- RQ1在给定的 N、K 和多项式次数下,LCC 下可容忍的最大慢节点、对手和共谋工作节点数(S, A, T)是多少?
- RQ2LCC 能否在一般的多线性/多项式计算中实现最优的鲁棒性-安全性-隐私权衡,并在任务间保持通用性?
- RQ3在实际分布式学习任务(如线性回归)中,LCC 与未编码方案和现有的慢节点缓解方法相比的表现如何?
- RQ4相对于之前的安全/私有编码方案(如 BGW),LCC 在存储、随机性和计算方面有哪些优势?
主要发现
- LCC 在 (K+T-1) deg f + S + 2A + 1 ≤ N 时,能够实现对 K 个输入计算 f(X_i) 的 S-鲁棒、A-安全、T-私有的方案。
- LCC 通过一次性编码方案,只需 T·deg f 次随机填充即可提升对共谋工作节点的数据隐私。
- LCC 通过一次编码并通过插值实现任意多项式计算,提供通用性,降低每个工作节点的数据负载。
- 在线性回归中,LCC 在 AWS EC2 实验中相对于未编码、梯度编码(GC)和矩阵-向量乘法(MVM)方案带来显著的运行时间提升。
- 经验上,LCC 将分布式最小二乘回归的速度比未编码快最多 13.43 倍,相比 GC 提升 2.36x–4.29x,相比 MVM 提升 1.01x–12.65x。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。