QUICK REVIEW
[论文解读] Zeno: Distributed Stochastic Gradient Descent with Suspicion-based Fault-tolerance
Cong Xie, Oluwasanmi Koyejo|arXiv (Cornell University)|May 25, 2018
Stochastic Gradient Optimization Techniques被引用 83
一句话总结
Zeno 引入了一种基于可疑性 的分布式 SGD 聚合规则,能够容忍任意数量的有故障工作者,只需至少一个非故障工作者,并且证明在非凸目标下的收敛性。
ABSTRACT
We present Zeno, a technique to make distributed machine learning, particularly Stochastic Gradient Descent (SGD), tolerant to an arbitrary number of faulty workers. Zeno generalizes previous results that assumed a majority of non-faulty nodes; we need assume only one non-faulty worker. Our key idea is to suspect workers that are potentially defective. Since this is likely to lead to false positives, we use a ranking-based preference mechanism. We prove the convergence of SGD for non-convex problems under these scenarios. Experimental results show that Zeno outperforms existing approaches.
研究动机与目标
- 在多数故障假设之外推动容错的分布式 SGD。
- 开发基于可疑性的聚合机制以处理类 Byzantine 故障。
- 在任意故障模式下证明对非凸目标的 SGD 收敛性。
- 在标准基准和数据分布不同(disjoint)设置下展示经验鲁棒性和实用性。
提出的方法
- 将每个候选梯度表示为一个可疑对象,并使用随机零阶 oracle 对其进行评分。
- 定义一个随机后代分数,结合估计的损失下降和更新幅度。
- 按分数对梯度估计量排序,并用 Zeno_b 聚合前 m-b 个估计值。
- 给出收敛性保证,在某些条件下显示与无故障分布式 SGD 相同的渐近速率。
- 分析时间复杂度并与基线如 Mean、Median 和 Krum 进行比较。
- 将分析扩展到跨工作者的非同分布且不相同的本地数据(disjoint 非同分布数据)。
实验结果
研究问题
- RQ1如果任意数量的工作者有故障,只要至少有一个非故障,SGD 是否可以对非凸目标收敛?
- RQ2基于可疑性的聚合(Zeno)在类 Byzantine 故障下是否实现与无故障 SGD 相当的收敛速率?
- RQ3在各种故障模型和数据分布下,与现有鲁棒聚合方法相比,Zeno 的实证表现如何?
主要发现
- Zeno 的渐近时间复杂度与无故障的分布式同步 SGD 相同。
- 实证结果表明在存在故障时,Zeno 的表现优于基线,包括标签翻转和比特翻转等情形。
- Zeno 在跨工作者的本地数据不相交的情况下仍然有效,并且对超参数选择如 n_r、ρ、和 b 具有鲁棒性。
- 该方法容忍超过一半的有故障梯度,并在某些基线失败的情况下保持稳定。
- 当故障不是占主导时,Zeno 的性能接近无故障 SGD,并且在若干故障情形下可以超越 Krum。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。