QUICK REVIEW

[论文解读] Zeno: Distributed Stochastic Gradient Descent with Suspicion-based Fault-tolerance

Cong Xie, Oluwasanmi Koyejo|arXiv (Cornell University)|May 25, 2018

Stochastic Gradient Optimization Techniques被引用 83

一句话总结

Zeno 引入了一种基于可疑性的分布式 SGD 聚合规则，能够容忍任意数量的有故障工作者，只需至少一个非故障工作者，并且证明在非凸目标下的收敛性。

ABSTRACT

We present Zeno, a technique to make distributed machine learning, particularly Stochastic Gradient Descent (SGD), tolerant to an arbitrary number of faulty workers. Zeno generalizes previous results that assumed a majority of non-faulty nodes; we need assume only one non-faulty worker. Our key idea is to suspect workers that are potentially defective. Since this is likely to lead to false positives, we use a ranking-based preference mechanism. We prove the convergence of SGD for non-convex problems under these scenarios. Experimental results show that Zeno outperforms existing approaches.

研究动机与目标

在多数故障假设之外推动容错的分布式 SGD。
开发基于可疑性的聚合机制以处理类 Byzantine 故障。
在任意故障模式下证明对非凸目标的 SGD 收敛性。
在标准基准和数据分布不同（disjoint）设置下展示经验鲁棒性和实用性。

提出的方法

将每个候选梯度表示为一个可疑对象，并使用随机零阶 oracle 对其进行评分。
定义一个随机后代分数，结合估计的损失下降和更新幅度。
按分数对梯度估计量排序，并用 Zeno_b 聚合前 m-b 个估计值。
给出收敛性保证，在某些条件下显示与无故障分布式 SGD 相同的渐近速率。
分析时间复杂度并与基线如 Mean、Median 和 Krum 进行比较。
将分析扩展到跨工作者的非同分布且不相同的本地数据（disjoint 非同分布数据）。

实验结果

研究问题

RQ1如果任意数量的工作者有故障，只要至少有一个非故障，SGD 是否可以对非凸目标收敛？
RQ2基于可疑性的聚合（Zeno）在类 Byzantine 故障下是否实现与无故障 SGD 相当的收敛速率？
RQ3在各种故障模型和数据分布下，与现有鲁棒聚合方法相比，Zeno 的实证表现如何？

主要发现

Zeno 的渐近时间复杂度与无故障的分布式同步 SGD 相同。
实证结果表明在存在故障时，Zeno 的表现优于基线，包括标签翻转和比特翻转等情形。
Zeno 在跨工作者的本地数据不相交的情况下仍然有效，并且对超参数选择如 n_r、ρ、和 b 具有鲁棒性。
该方法容忍超过一半的有故障梯度，并在某些基线失败的情况下保持稳定。
当故障不是占主导时，Zeno 的性能接近无故障 SGD，并且在若干故障情形下可以超越 Krum。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。