Skip to main content
QUICK REVIEW

[论文解读] Asynchronous Decentralized SGD with Quantized and Local Updates

Giorgi Nadiradze, Amirmojtaba Sabour|arXiv (Cornell University)|Oct 27, 2019
Stochastic Gradient Optimization Techniques被引用 23
一句话总结

该论文提出 SwarmSGD,一种支持量化通信、本地步数和非阻塞更新的异步去中心化随机梯度下降算法,采用完全异步的八卦传播模型。该方法在数据异构性和拓扑结构多样的条件下证明了收敛性,并在端到端训练性能上表现出色,实际表现可与大批次 SGD 相媲美,同时显著降低通信成本。

ABSTRACT

Decentralized optimization is emerging as a viable alternative for scalable distributed machine learning, but also introduces new challenges in terms of synchronization costs. To this end, several communication-reduction techniques, such as non-blocking communication, quantization, and local steps, have been explored in the decentralized setting. Due to the complexity of analyzing optimization in such a relaxed setting, this line of work often assumes \emph{global} communication rounds, which require additional synchronization. In this paper, we consider decentralized optimization in the simpler, but harder to analyze, \emph{asynchronous gossip} model, in which communication occurs in discrete, randomly chosen pairings among nodes. Perhaps surprisingly, we show that a variant of SGD called \emph{SwarmSGD} still converges in this setting, even if \emph{non-blocking communication}, \emph{quantization}, and \emph{local steps} are all applied \emph{in conjunction}, and even if the node data distributions and underlying graph topology are both \emph{heterogenous}. Our analysis is based on a new connection with multi-dimensional load-balancing processes. We implement this algorithm and deploy it in a super-computing environment, showing that it can outperform previous decentralized methods in terms of end-to-end training time, and that it can even rival carefully-tuned large-batch SGD for certain tasks.

研究动机与目标

  • 设计一种支持在异步设置下进行量化、本地步数和非阻塞通信的去中心化 SGD 算法。
  • 证明在数据分布异构性和图拓扑结构多样的条件下,该方法的收敛性。
  • 消除对全局同步轮次的需求,从而解决以往去中心化方法在可扩展性方面的限制。
  • 实现比现有去中心化方法和大批次 SGD 方法更好的端到端训练效率。

提出的方法

  • SwarmSGD 每个节点使用共享通信缓冲区来存储量化后的模型更新,从而实现非阻塞的并发写入和读取。
  • 每个节点在通信前执行 H 次本地梯度更新,以减少通信频率和同步开销。
  • 节点异步地与随机邻居配对,从对方缓冲区读取量化模型,进行平均,并将量化后的平均值写回对方的缓冲区。
  • 使用平均后的量化模型更新本地模型,随后将新模型量化并写入本节点自身的缓冲区。
  • 该方法依赖原子读写操作和一种特定的量化方案,即使在存在量化噪声的情况下也能保持收敛性。
  • 提出了一种新颖的理论分析方法,将该算法与多维负载均衡过程关联,从而在异步和量化条件下建立收敛性。

实验结果

研究问题

  • RQ1在完全异步的八卦传播模型中,支持量化、本地步数和非阻塞通信的去中心化 SGD 是否能够收敛?
  • RQ2该方法的收敛行为如何受数据异构性和网络拓扑的影响?
  • RQ3所提出的方法是否能够实现比同步或部分同步的去中心化方法更好的端到端训练性能?
  • RQ4通信频率和量化对训练速度和模型准确率有何影响?

主要发现

  • SwarmSGD 即使在并发、非阻塞通信、量化和本地步数并存的异步八卦模型中,也能实现收敛。
  • 与 D-PSGD 和 SGP 相比,该方法将通信成本降低了最多 50%,且通信时间在节点数量增加时保持不变。
  • 在 ResNet18/ImageNet 上,SwarmSGD 在仅损失 1% 以内准确率的情况下,达到了与大批次 SGD 相当的准确率,同时显著缩短了端到端训练时间。
  • 在 CIFAR-10 上,SwarmSGD 的量化版本实现了约 10% 的加速,且 Top-1 准确率下降不足 0.3%。
  • 该方法在 256 个节点下仍能保持收敛性和准确性,展现出强大的可扩展性。
  • 收敛性与每模型的训练轮数强相关,而本地步数的影响较弱。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。