[论文解读] ScaleCom: Scalable Sparsified Gradient Compression for Communication-Efficient Distributed Training
ScaleCom 引入一种可扩展的稀疏化梯度压缩方法,结合循环局部前-k 和低通记忆滤波,以在最小精度损失的前提下实现高效的 all-reduce、大批量训练。
Large-scale distributed training of Deep Neural Networks (DNNs) on state-of-the-art platforms is expected to be severely communication constrained. To overcome this limitation, numerous gradient compression techniques have been proposed and have demonstrated high compression ratios. However, most existing methods do not scale well to large scale distributed systems (due to gradient build-up) and/or fail to evaluate model fidelity (test accuracy) on large datasets. To mitigate these issues, we propose a new compression technique, Scalable Sparsified Gradient Compression (ScaleCom), that leverages similarity in the gradient distribution amongst learners to provide significantly improved scalability. Using theoretical analysis, we show that ScaleCom provides favorable convergence guarantees and is compatible with gradient all-reduce techniques. Furthermore, we experimentally demonstrate that ScaleCom has small overheads, directly reduces gradient traffic and provides high compression rates (65-400X) and excellent scalability (up to 64 learners and 8-12X larger batch sizes over standard training) across a wide range of applications (image, language, and speech) without significant accuracy loss.
研究动机与目标
- 随着模型和数据集的增长,动机与需求:需要高效的通信分布式训练。
- 在跨越众多工作者聚合梯度时,开发一个仍然有效的压缩技术。
- 实现大批量、数据并行训练,而不显著降低精度。
- 保证与标准 all-reduce 架构的兼容性并提供收敛性保证。
提出的方法
- 提出 Cyclic Local Top-k (CLT-k) 作为与工作者间对齐本地记忆的压缩器(commutative compressor)。
- 在本地记忆上引入低通滤波器,以在大批量/学习率设定下抑制梯度噪声。
- 在标准 SGD 假设下,证明 ScaleCom 搭配 CLT-k 的收缩性质与收敛性保证。
- 通过理论与实验展示 ScaleCom 与 all-reduce 兼容性及其可扩展性(至 64 个工作者)。
- 给出一个端到端算法(ScaleCom),整合 CLT-k 压缩、记忆滤波、梯度规约与更新。
实验结果
研究问题
- RQ1CLT-k 是否能够提供对误差反馈 SGD 适用的大规模分布式训练中的对易性和收缩性质?
- RQ2在大批量和放大的学习率设置下,低通滤波的记忆更新如何影响收敛性和记忆相似性?
- RQ3ScaleCom 的收敛性保证及随工作者数量增加的潜在线性加速?
- RQ4ScaleCom 是否在多样化任务(视觉、语言、语音)和大批量 regime 中保持模型精度?
- RQ5ScaleCom 是否与标准 all-reduce 实现兼容并可扩展至 64+ 工作者?
主要发现
- ScaleCom 在视觉、语言、语音任务中实现 65-400X 的压缩,且准确率损失可忽略。
- 可扩展到 64 个学习者,且在保持精度的前提下实现 8-12 倍以上的大批量(ImageNet、WMT、SWB300)。
- CLT-k 压缩器具对易性并以与 top-k 相似的收缩方式运作,使全规约高效实现。
- 低通滤波在大学习率下改善记忆相似性,维持收敛性。
- 经验结果显示在标准批量下的退化极小,在大批量下仍能很好保持。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。