Skip to main content
QUICK REVIEW

[论文解读] Generalized Byzantine-tolerant SGD

Cong Xie, Oluwasanmi Koyejo|arXiv (Cornell University)|Feb 27, 2018
Distributed systems and fault tolerance参考文献 12被引用 176
一句话总结

本文在广义 Byzantine failure model 下,提出三种稳健的、基于中位数的同步 SGD 聚合规则,证明了维度级 Byzantine 鲁棒性,并展示了对多种攻击的经验鲁棒性。

ABSTRACT

We propose three new robust aggregation rules for distributed synchronous Stochastic Gradient Descent~(SGD) under a general Byzantine failure model. The attackers can arbitrarily manipulate the data transferred between the servers and the workers in the parameter server~(PS) architecture. We prove the Byzantine resilience properties of these aggregation rules. Empirical analysis shows that the proposed techniques outperform current approaches for realistic use cases and Byzantine attack scenarios.

研究动机与目标

  • 在广义 Byzantine 模型下,推动分布式 SGD 的失效/攻击鲁棒性研究。
  • 开发能容忍跨工作节点每维度任意 Byzantine 值的聚合规则。
  • 证明所提出规则的收敛到临界点。
  • 评估计算效率及对现实 Byzantine 攻击的经验鲁棒性。

提出的方法

  • 定义一个广义 Byzantine 模型,其中每维度的值在不同工作节点上可能被污染。
  • 提出三种聚合规则:几何中位数、边际中位数,以及围绕中位数的均值。
  • 在每维度最多存在 q 个 Byzantine 的前提下,证明所提出规则的维度级 Byzantine 鲁棒性。
  • 分析每种聚合规则的时间复杂度(基于中位数的方法接近线性)。
  • 在鲁棒性条件成立时,证明这些规则收敛到临界点。

实验结果

研究问题

  • RQ1在一个广义 Byzantine 失效模型下,如果 Byzantine 值在各工作节点的每个维度上都可能出现,同步 SGD 能否收敛到良好解?
  • RQ2基于中位数的聚合规则是否提供维度级 Byzantine 鲁棒性?在什么条件下?
  • RQ3在收敛性、鲁棒性和计算效率方面,所提出的规则与经典的 Byzantine 防御相比如何?
  • RQ4攻击者模型(高斯、全知、赌徒)对在所提出聚合下的收敛性有何影响?

主要发现

  • 三种基于中位数的聚合(几何中位数、边际中位数、围绕中位数的均值)在维度级 Byzantine 鲁棒性下实现收敛到临界点。
  • 已证明边际中位数和围绕中位数的均值在维度级上具有 Byzantine 鲁棒性,能够对抗每维度的 Byzantine 值。
  • 几何中位数具有带有逐维考虑的经典 Byzantine 鲁棒性,且这些方法在实践中具有接近线性的时间复杂度。
  • 实验结果表明,在 MNIST 和 CIFAR-10 任务下,所提出的方法在高斯、全知、比特翻转和 gambler 攻击下优于基线聚合。
  • 在某些攻击下,基于均值的方法不如基于中位数的方法鲁棒,强调在维度性攻击下边际中位数/围绕中位数的均值的优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。