[论文解读] DRACO: Byzantine-resilient Distributed Training via Redundant Gradients
DRACO 是一种拜占庭容错的分布式训练框架,通过编码理论冗余技术容忍恶意计算节点,同时保持与无敌手训练环境下的相同模型。通过使用可实现纠错解码的冗余比率对梯度进行编码,DRACO 相较于基于几何中位数的方法实现了数量级的训练速度提升,且在真实环境中仅带来可忽略的开销。
Distributed model training is vulnerable to byzantine system failures and adversarial compute nodes, i.e., nodes that use malicious updates to corrupt the global model stored at a parameter server (PS). To guarantee some form of robustness, recent work suggests using variants of the geometric median as an aggregation rule, in place of gradient averaging. Unfortunately, median-based rules can incur a prohibitive computational overhead in large-scale settings, and their convergence guarantees often require strong assumptions. In this work, we present DRACO, a scalable framework for robust distributed training that uses ideas from coding theory. In DRACO, each compute node evaluates redundant gradients that are used by the parameter server to eliminate the effects of adversarial updates. DRACO comes with problem-independent robustness guarantees, and the model that it trains is identical to the one trained in the adversary-free setup. We provide extensive experiments on real datasets and distributed setups across a variety of large-scale models, where we show that DRACO is several times, to orders of magnitude faster than median-based approaches.
研究动机与目标
- 解决分布式训练对拜占庭故障及注入恶意梯度的敌手计算节点的脆弱性问题。
- 克服大规模设置下基于几何中位数聚合方法的计算成本过高的问题。
- 提供与问题无关的鲁棒性保障,且收敛性与无敌手训练环境完全一致。
- 设计一种可扩展、高效的框架,适用于多种优化算法(例如 SGD、GD、SVRG)。
提出的方法
- 通过为每个计算节点分配多个冗余梯度来引入算法冗余,使每个节点的计算负载增加冗余比率 r。
- 使用分数重复或循环重复编码对梯度更新进行编码,以便参数服务器能够实现错误检测与纠正。
- 使用多数投票解码器或一种新型基于傅里叶的解码技术对聚合梯度和进行解码,从而在最多 (r−1)/2 个敌手节点存在的情况下恢复正确的梯度和。
- 确保最终模型与无敌手环境下的训练结果完全一致,从而实现黑盒收敛性保障。
- 调整冗余比率 r,以实现在敌手容错性方面的信息论最优性。
- 在 PyTorch 中实现该框架,并在 Amazon EC2 上进行部署,以在多种模型和数据集上开展真实世界评估。
实验结果
研究问题
- RQ1与基于几何中位数的方法相比,是否能够实现计算开销极低的拜占庭容错分布式训练系统?
- RQ2是否可能设计一种框架,在容忍恶意更新的同时,保持与无敌手设置下相同的模型?
- RQ3编码理论技术是否能够被有效适配,以在最坏情况敌手条件下实现高效、可扩展的梯度聚合?
- RQ4所提出的基于冗余的方法在敌手节点数量和模型复杂度增加时,性能如何扩展?
- RQ5在真实分布式环境中,冗余比率与端到端训练速度之间存在何种权衡?
主要发现
- 与基于几何中位数的方法相比,DRACO 将训练时间减少了高达数量级,且 GM 方法的解码开销主导了训练时间。
- 在 ResNet-152 上,当敌手比例为 11.1% 时,DRACO 的循环编码方案每轮迭代耗时 23.08 秒,而 GM 方法耗时 212.31 秒。
- 对于 VGG-19,DRACO 的循环编码每轮迭代总耗时为 3.08 秒,而 GM 方法耗时 74.63 秒,解码开销实现 24 倍的加速。
- DRACO 的总运行时间随敌手数量增加仅略有上升,在敌手比例高达 46.7% 时仍保持稳定,原因在于通信成本占主导地位。
- 与几何中位数计算相比,DRACO 的编码与解码开销可忽略不计,使其在大规模系统中具有实际可行性。
- DRACO 在冗余方面实现了信息论最优性,仅需容忍最多 (r−1)/2 个敌手节点所需的最小冗余量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。