Skip to main content
QUICK REVIEW

[论文解读] SGD: Decentralized Byzantine Resilience.

El Mahdi El Mhamdi, Rachid Guerraoui|arXiv (Cornell University)|May 5, 2019
Privacy-Preserving Technologies in Data参考文献 13被引用 13
一句话总结

GuanYu 是首个在异步网络中实现对拜占庭式工作者和参数服务器双重容错的去中心化 SGD 算法,可在高达 1/3 的拜占庭节点存在下确保收敛。它利用高维空间中几何中位数的性质来防止模型漂移,在保持与原始 TensorFlow 相当的收敛速度的同时,仅带来 30% 的吞吐量开销。

ABSTRACT

The size of the datasets available today leads to distribute Machine Learning (ML) tasks. An SGD--based optimization is for instance typically carried out by two categories of participants: parameter servers and workers. Some of these nodes can sometimes behave arbitrarily (called \emph{Byzantine} and caused by corrupt/bogus data/machines), impacting the accuracy of the entire learning activity. Several approaches recently studied how to tolerate Byzantine workers, while assuming honest and trusted parameter servers. In order to achieve total ML robustness, we introduce GuanYu, the first algorithm (to the best of our knowledge) to handle Byzantine parameter servers as well as Byzantine workers. We prove that GuanYu ensures convergence against $\frac{1}{3}$ Byzantine parameter servers and $\frac{1}{3}$ Byzantine workers, which is optimal in asynchronous networks (GuanYu does also tolerate unbounded communication delays, i.e. asynchrony). To prove the Byzantine resilience of GuanYu, we use a contraction argument, leveraging geometric properties of the median in high dimensional spaces to prevent (with probability 1) any drift on the models within each of the non-Byzantine servers. % To convey its practicality, we implemented GuanYu using the low-level TensorFlow APIs and deployed it in a distributed setup using the CIFAR-10 dataset. The overhead of tolerating Byzantine participants, compared to a vanilla TensorFlow deployment that is vulnerable to a single Byzantine participant, is around 30\% in terms of throughput (model updates per second) - while maintaining the same convergence rate (model updates required to reach some accuracy).

研究动机与目标

  • 解决去中心化机器学习系统中参数服务器缺乏拜占庭容错的问题。
  • 设计一种可容忍拜占庭式工作者和参数服务器的去中心化 SGD 算法。
  • 在异步网络中实现最优的 1/3 拜占庭节点容错能力。
  • 证明在通信延迟无界和对抗性行为下仍能收敛。
  • 在真实分布式环境中实现并评估实际性能开销。

提出的方法

  • GuanYu 基于高维空间中中位数的几何特性,采用收缩论证方法。
  • 它利用非拜占庭参数服务器上模型更新的中位数来防止漂移并确保收敛。
  • 该算法在完全去中心化的环境中运行,无需中央协调器。
  • 它假设对任何节点(包括参数服务器)均不信任,并可容忍任意行为。
  • 该方法在具有无界延迟的异步通信下被证明具有鲁棒性。
  • 实现使用低层级 TensorFlow API,以支持真实世界部署和性能评估。

实验结果

研究问题

  • RQ1当工作者和参数服务器均可能遭受任意故障时,去中心化 SGD 算法能否实现拜占庭容错?
  • RQ2在去中心化、异步网络中,可容忍的拜占庭节点比例的理论上限是多少?
  • RQ3在对抗性更新下,基于几何中位数的聚合能否在高维空间中防止模型漂移?
  • RQ4在真实分布式系统中实现此类容错能力的实际性能开销是多少?
  • RQ5尽管具备拜占庭容错能力,该算法是否仍能保持与标准 SGD 相同的收敛速率?

主要发现

  • GuanYu 在异步网络中可容忍高达 1/3 的拜占庭参数服务器和 1/3 的拜占庭工作者,达到理论最优容错能力。
  • 通过利用高维空间中几何中位数的性质,该算法以概率 1 防止模型漂移。
  • 它可容忍无界的通信延迟,因此在真实世界的异步环境中具有鲁棒性。
  • 使用 TensorFlow 进行的实际部署表明,与原始 TensorFlow 相比,单个拜占庭参与者下仅带来 30% 的吞吐量开销。
  • 尽管存在 30% 的开销,GuanYu 在达到目标准确率所需的模型更新次数上,仍保持与标准 SGD 相同的收敛速率。
  • 据作者所知,GuanYu 是首个同时在工作者和参数服务器上实现此类容错能力的算法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。