QUICK REVIEW
[论文解读] Phocas: dimensional Byzantine-resilient stochastic gradient descent
Cong Xie, Oluwasanmi Koyejo|arXiv (Cornell University)|May 23, 2018
Privacy-Preserving Technologies in Data参考文献 14被引用 45
一句话总结
本文引入 Phocas,一种用于同步 SGD 的维度容错拜占庭聚合规则,证明其鲁棒性并展示对多种攻击的经验鲁棒性。
ABSTRACT
We propose a novel robust aggregation rule for distributed synchronous Stochastic Gradient Descent~(SGD) under a general Byzantine failure model. The attackers can arbitrarily manipulate the data transferred between the servers and the workers in the parameter server~(PS) architecture. We prove the Byzantine resilience of the proposed aggregation rules. Empirical analysis shows that the proposed techniques outperform current approaches for realistic use cases and Byzantine attack scenarios.
研究动机与目标
- 在参数服务器架构中,在最一般的拜占庭故障模型下,推动鲁棒的分布式训练。
- 引入维度级拜占庭鲁棒性,以处理梯度中任意维度的数据篡改。
- 提出高效、低成本的聚合规则,容忍拜占庭梯度并确保收敛。
- 给出带有维度级拜占庭鲁棒聚合的 SGD 的理论收敛保障。
- 在 MNIST 和 CIFAR-10 上对多种攻击情景进行经验验证鲁棒性。
提出的方法
- 将广义拜占庭故障建模为在 m 个工作节点中每个维度最多有 q 个值可能被篡改。
- 提出基于截尾均值的聚合规则(Trmean 和 Phocas)以实现维度级拜占庭鲁棒性。
- 将 Phocas 定义为一个以距离为中心的“截尾后再平均”规则,使用离截尾均值最近的 m−b 个元素并对其进行平均。
- 证明维度Δ-拜占庭鲁棒性并推导方差/收敛误差的界限。
- 分析时间复杂度:Phocas 近线性时间,成本低于 Krum 变体。
- 给出在 Δ-拜占庭鲁棒聚合下,强凸/光滑以及非凸情形的同步 SGD 收敛保障。
实验结果
研究问题
- RQ1是否能在同步 SGD 中容忍广义的(维度级)拜占庭故障,而不使方差爆炸或训练发散?
- RQ2基于截尾均值的聚合(Trmean、Phocas)是否提供带有可证明保证的维度级拜占庭鲁棒性?
- RQ3这些聚合在拜占庭攻击下如何影响收敛速率和最终误差?
- RQ4在拜占庭场景下,与现有鲁棒聚合(如 Krum、Multi-Krum)的计算成本比较如何?
- RQ5在实际数据集上,所提出的方法是否在常见攻击模型(高斯、全知、比特翻转、赌徒)下具有鲁棒性?
主要发现
- 基于截尾均值的聚合在 2q < m 的条件下实现了带有界方差的维度级拜占庭鲁棒性。
- Phocas 通过对离截尾均值最近的 m−b 个值进行平均,进一步提高鲁棒性,并给出鲁棒性界限。
- 收敛性分析表明对于强凸且光滑的 F,具有常数误差的线性收敛,对一般光滑的 F 也有类似保证。
- Phocas 和 Trmean 在 MNIST/CIFAR-10 的实验中,对高斯、全知、比特翻转和赌徒攻击表现出强经验鲁棒性。
- Phocas 相较于 Multi-Krum 提供相当或更好的性能,同时计算成本更低。
- 在广义维度拜占庭模型下,Krum 和不带拜占庭假设的均值失败,而 Phocas 和 Trmean 成功。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。