[论文解读] Learning from History for Byzantine Robust Optimization
本文提出了一种新颖的拜占庭鲁棒优化框架,通过引入迭代中心裁剪和工作者动量,解决了现有鲁棒聚合规则中的关键缺陷。该方法首次证明了在拜占庭攻击下标准随机优化的收敛性,且无需强分布假设或超参数调优,对噪声敏感性故障和时序耦合攻击均表现出鲁棒性。
Byzantine robustness has received significant attention recently given its importance for distributed and federated learning. In spite of this, we identify severe flaws in existing algorithms even when the data across the participants is identically distributed. First, we show realistic examples where current state of the art robust aggregation rules fail to converge even in the absence of any Byzantine attackers. Secondly, we prove that even if the aggregation rules may succeed in limiting the influence of the attackers in a single round, the attackers can couple their attacks across time eventually leading to divergence. To address these issues, we present two surprisingly simple strategies: a new robust iterative clipping procedure, and incorporating worker momentum to overcome time-coupled attacks. This is the first provably robust method for the standard stochastic optimization setting. Our code is open sourced at https://github.com/epfml/byzantine-robust-optimizer.
研究动机与目标
- 识别并解决现有拜占庭鲁棒聚合规则中的根本缺陷,这些缺陷即使在没有恶意工作者的情况下也会因对梯度噪声分布敏感而无法收敛。
- 证明任何忽略历史信息的聚合规则在时序耦合攻击下本质上是脆弱的,此类攻击会随轮次累积,导致发散。
- 设计一种新的鲁棒聚合规则——中心裁剪(centered clipping),该规则具有可扩展性,可与现有技术(如本地SGD和安全聚合)兼容,并具备可证明的收敛性。
- 表明工作者动量通过降低方差并随时间暴露恶意扰动,能有效对抗时序耦合攻击。
- 将基于动量的方差减少与拜占庭鲁棒聚合器结合,实现在非凸优化中的最优收敛速率。
提出的方法
- 提出一种基于迭代中心裁剪的新鲁棒聚合规则,通过围绕真实梯度的运行估计值自适应裁剪梯度,以降低对噪声分布的敏感性。
- 引入工作者动量作为防御机制,通过时间平均更新,从而降低诚实工作者的方差,并放大拜占庭工作者的时序耦合扰动。
- 将中心裁剪与动量结合,在标准假设(包括L-利普希茨平滑性和有界梯度方差)下实现可证明收敛。
- 确保与现有分布式学习技术(如异步更新和安全聚合)的兼容性,支持实际部署。
- 采用简单且可扩展的实现方式,每轮仅需O(n)的计算和通信开销,适用于大规模系统。
- 在MNIST和CIFAR-10上通过实验评估,验证了对高斯攻击和自适应攻击的鲁棒性,并与Safeguard(Allen-Zhu等,2021)进行了对比。
实验结果
研究问题
- RQ1现有鲁棒聚合规则是否可能因对梯度噪声分布敏感而在无拜占庭攻击者时仍无法收敛?
- RQ2能否构造一种时序耦合攻击,导致任何忽略历史信息的鲁棒优化算法出现收敛失败?
- RQ3迭代中心裁剪是否能提供一种可扩展且可证明鲁棒的替代方案,以替代基于中位数或截断均值的聚合器?
- RQ4工作者动量是否能通过随时间暴露持续扰动,有效防御时序耦合攻击?
- RQ5将基于动量的方差减少与拜占庭鲁棒聚合结合,是否能在非凸设置下实现最优收敛速率?
主要发现
- 本文证明,任何忽略历史信息的聚合规则在时序耦合攻击下被可证明地脆弱,此类攻击会随轮次累积,即使单轮看似安全,仍会导致发散。
- 中心裁剪(CC)成功防御了大振幅攻击(如标准差为10^8的高斯噪声),防止了NaN值出现,并确保了收敛,而其他方法则失败。
- 实验表明,CC在收敛性和准确性方面优于Safeguard(Allen-Zhu等,2021),尤其在自适应攻击下表现更优,且无需调优τ0或τ1等参数。
- CC与动量的结合在标准假设下可实现收敛至驻点,并达到非凸优化的最优收敛速率。
- 实证结果表明,CC与本地SGD兼容,增加本地步数可在无攻击者的情况下提升MNIST上的收敛速度和准确性。
- 该方法在现实条件下具有鲁棒性:无需假设梯度几乎必然有界,从而排除了高斯等常见噪声分布的限制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。