QUICK REVIEW

[论文解读] Phocas: dimensional Byzantine-resilient stochastic gradient descent

Cong Xie, Oluwasanmi Koyejo|arXiv (Cornell University)|May 23, 2018

Privacy-Preserving Technologies in Data参考文献 14被引用 45

一句话总结

本文引入 Phocas，一种用于同步 SGD 的维度容错拜占庭聚合规则，证明其鲁棒性并展示对多种攻击的经验鲁棒性。

ABSTRACT

We propose a novel robust aggregation rule for distributed synchronous Stochastic Gradient Descent~(SGD) under a general Byzantine failure model. The attackers can arbitrarily manipulate the data transferred between the servers and the workers in the parameter server~(PS) architecture. We prove the Byzantine resilience of the proposed aggregation rules. Empirical analysis shows that the proposed techniques outperform current approaches for realistic use cases and Byzantine attack scenarios.

研究动机与目标

在参数服务器架构中，在最一般的拜占庭故障模型下，推动鲁棒的分布式训练。
引入维度级拜占庭鲁棒性，以处理梯度中任意维度的数据篡改。
提出高效、低成本的聚合规则，容忍拜占庭梯度并确保收敛。
给出带有维度级拜占庭鲁棒聚合的 SGD 的理论收敛保障。
在 MNIST 和 CIFAR-10 上对多种攻击情景进行经验验证鲁棒性。

提出的方法

将广义拜占庭故障建模为在 m 个工作节点中每个维度最多有 q 个值可能被篡改。
提出基于截尾均值的聚合规则（Trmean 和 Phocas）以实现维度级拜占庭鲁棒性。
将 Phocas 定义为一个以距离为中心的“截尾后再平均”规则，使用离截尾均值最近的 m−b 个元素并对其进行平均。
证明维度Δ-拜占庭鲁棒性并推导方差/收敛误差的界限。
分析时间复杂度：Phocas 近线性时间，成本低于 Krum 变体。
给出在 Δ-拜占庭鲁棒聚合下，强凸/光滑以及非凸情形的同步 SGD 收敛保障。

实验结果

研究问题

RQ1是否能在同步 SGD 中容忍广义的（维度级）拜占庭故障，而不使方差爆炸或训练发散？
RQ2基于截尾均值的聚合（Trmean、Phocas）是否提供带有可证明保证的维度级拜占庭鲁棒性？
RQ3这些聚合在拜占庭攻击下如何影响收敛速率和最终误差？
RQ4在拜占庭场景下，与现有鲁棒聚合（如 Krum、Multi-Krum）的计算成本比较如何？
RQ5在实际数据集上，所提出的方法是否在常见攻击模型（高斯、全知、比特翻转、赌徒）下具有鲁棒性？

主要发现

基于截尾均值的聚合在 2q < m 的条件下实现了带有界方差的维度级拜占庭鲁棒性。
Phocas 通过对离截尾均值最近的 m−b 个值进行平均，进一步提高鲁棒性，并给出鲁棒性界限。
收敛性分析表明对于强凸且光滑的 F，具有常数误差的线性收敛，对一般光滑的 F 也有类似保证。
Phocas 和 Trmean 在 MNIST/CIFAR-10 的实验中，对高斯、全知、比特翻转和赌徒攻击表现出强经验鲁棒性。
Phocas 相较于 Multi-Krum 提供相当或更好的性能，同时计算成本更低。
在广义维度拜占庭模型下，Krum 和不带拜占庭假设的均值失败，而 Phocas 和 Trmean 成功。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。