QUICK REVIEW

[论文解读] Byzantine Stochastic Gradient Descent

Dan Alistarh, Zeyuan Allen-Zhu|arXiv (Cornell University)|Mar 23, 2018

Stochastic Gradient Optimization Techniques参考文献 27被引用 104

一句话总结

这篇论文在分布式随机优化中提出了 Byzantine 鲁棒的 SGD 方法，在很少量的拜占庭工作者下实现近似最优的样本和时间复杂度，并给出形式化下界。它提供的算法能够容忍 α < 1/2 的拜占庭机器，并在加性 α 相关项的情况下达到与非拜占庭性能相当的表现。

ABSTRACT

This paper studies the problem of distributed stochastic optimization in an adversarial setting where, out of the $m$ machines which allegedly compute stochastic gradients every iteration, an $α$-fraction are Byzantine, and can behave arbitrarily and adversarially. Our main result is a variant of stochastic gradient descent (SGD) which finds $\varepsilon$-approximate minimizers of convex functions in $T = ilde{O}\big( \frac{1}{\varepsilon^2 m} + \frac{α^2}{\varepsilon^2} \big)$ iterations. In contrast, traditional mini-batch SGD needs $T = O\big( \frac{1}{\varepsilon^2 m} \big)$ iterations, but cannot tolerate Byzantine failures. Further, we provide a lower bound showing that, up to logarithmic factors, our algorithm is information-theoretically optimal both in terms of sampling complexity and time complexity.

研究动机与目标

在某些工作者可能采取对抗行为（拜占庭）时，激发鲁棒分布式优化的动机。
在容忍拜占庭故障的前提下，利用来自多个工作者的随机梯度最小化一个凸（或强凸）目标函数。
在存在拜占庭工作者的情况下，达到信息论意义上最优的样本和时间复杂度，至多有对数量级的对数因子。
在拜占庭环境下确保可扩展性和每次迭代的低通信开销。

提出的方法

提出 ByzantineSGD，一种鲁棒聚合策略，为每个工作者维护两个估计序列（A_i 和 B_i），以在运行时检测并排除拜占庭机器。
使用中位数（Amed、Bmed、∇med）在每次迭代时识别一部分良好机器，而无需重新启动运行。
使用所识别的良好集合的平均梯度更新迭代，减轻拜占庭的影响。
给出形式化的集中性引理（事件 A、事件 B、事件 C），界定拜占庭工作者引入的偏差和方差。
推导对于非强凸和强凸目标的收敛保证，包括光滑和非光滑情形。
提供一种基于时期的扩展（在强凸性下的 ByzantineSGD），重复执行 ByzantineSGD 以在对数数量的时期内达到 ε-最优。

实验结果

研究问题

RQ1当有 α 的工作者是拜占庭时，需要多少次迭代和多少样本才能达到 ε-近似最小值？
RQ2我们能否设计类似 SGD 的算法，在容忍拜占庭工作者的同时保持接近最优的样本和时间复杂度？
RQ3哪些集中工具和鲁棒聚合方案能在对抗行为存在的情况下实现对良好工作者的可靠识别？
RQ4在光滑与非光滑以及凸与强凸目标之间，鲁棒性保证有何不同？

主要发现

ByzantineSGD 在光滑凸目标下以 T = e^{O(1/ε^2m) + α^2/ε^2} 次迭代达到 ε-近似最小值；在 σ-强凸目标下为 T = e^{O(1/σ + 1/(σεm) + α^2/σε)}。
存在匹配的信息论下界，表明 α 相关项 α^2/ε^2（或 α^2/(σε)）是必要的。
加性 α 相关项是不可避免的，而其余项在常数量级上与非拜占庭的 SGD 相匹配，在并行加速方面维持到与 α 有关的上限。
支持拜占庭比例 α < 1/2，且算法通过每次迭代仅需要来自每个工作者的一个梯度来保持通信效率。
与以往工作（如坐标-wise 中位数方法）相比，ByzantineSGD 在样本和时间尺度上具有更优表现，尤其是在高维情况下，所需的随机梯度计算更少。
对于强凸目标，基于时期的变体在 T = e^{O(L/σ) + V^2/(mσε) + α^2V^2/σε} 次迭代中收敛，与标准 GD 速率再加上拜占庭鲁棒性一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。