Skip to main content
QUICK REVIEW

[论文解读] Zeno: Distributed Stochastic Gradient Descent with Suspicion-based Fault-tolerance

Cong Xie, Oluwasanmi Koyejo|arXiv (Cornell University)|May 25, 2018
Stochastic Gradient Optimization Techniques被引用 83
一句话总结

Zeno 引入了一种基于可疑性 的分布式 SGD 聚合规则,能够容忍任意数量的有故障工作者,只需至少一个非故障工作者,并且证明在非凸目标下的收敛性。

ABSTRACT

We present Zeno, a technique to make distributed machine learning, particularly Stochastic Gradient Descent (SGD), tolerant to an arbitrary number of faulty workers. Zeno generalizes previous results that assumed a majority of non-faulty nodes; we need assume only one non-faulty worker. Our key idea is to suspect workers that are potentially defective. Since this is likely to lead to false positives, we use a ranking-based preference mechanism. We prove the convergence of SGD for non-convex problems under these scenarios. Experimental results show that Zeno outperforms existing approaches.

研究动机与目标

  • 在多数故障假设之外推动容错的分布式 SGD。
  • 开发基于可疑性的聚合机制以处理类 Byzantine 故障。
  • 在任意故障模式下证明对非凸目标的 SGD 收敛性。
  • 在标准基准和数据分布不同(disjoint)设置下展示经验鲁棒性和实用性。

提出的方法

  • 将每个候选梯度表示为一个可疑对象,并使用随机零阶 oracle 对其进行评分。
  • 定义一个随机后代分数,结合估计的损失下降和更新幅度。
  • 按分数对梯度估计量排序,并用 Zeno_b 聚合前 m-b 个估计值。
  • 给出收敛性保证,在某些条件下显示与无故障分布式 SGD 相同的渐近速率。
  • 分析时间复杂度并与基线如 Mean、Median 和 Krum 进行比较。
  • 将分析扩展到跨工作者的非同分布且不相同的本地数据(disjoint 非同分布数据)。

实验结果

研究问题

  • RQ1如果任意数量的工作者有故障,只要至少有一个非故障,SGD 是否可以对非凸目标收敛?
  • RQ2基于可疑性的聚合(Zeno)在类 Byzantine 故障下是否实现与无故障 SGD 相当的收敛速率?
  • RQ3在各种故障模型和数据分布下,与现有鲁棒聚合方法相比,Zeno 的实证表现如何?

主要发现

  • Zeno 的渐近时间复杂度与无故障的分布式同步 SGD 相同。
  • 实证结果表明在存在故障时,Zeno 的表现优于基线,包括标签翻转和比特翻转等情形。
  • Zeno 在跨工作者的本地数据不相交的情况下仍然有效,并且对超参数选择如 n_r、ρ、和 b 具有鲁棒性。
  • 该方法容忍超过一半的有故障梯度,并在某些基线失败的情况下保持稳定。
  • 当故障不是占主导时,Zeno 的性能接近无故障 SGD,并且在若干故障情形下可以超越 Krum。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。