Skip to main content
QUICK REVIEW

[论文解读] Stochastic Gradient Push for Distributed Deep Learning

Mahmoud Assran, Nicolas Loizou|arXiv (Cornell University)|Nov 27, 2018
Stochastic Gradient Optimization Techniques被引用 137
一句话总结

本论文提出 Stochastic Gradient Push (SGP),将 PushSum gossip 与随机梯度更新相结合用于分布式深度学习,证明收敛到一个驻点并实现节点一致性,并在大规模视觉任务和翻译任务上给出经验验证。

ABSTRACT

Distributed data-parallel algorithms aim to accelerate the training of deep neural networks by parallelizing the computation of large mini-batch gradient updates across multiple nodes. Approaches that synchronize nodes using exact distributed averaging (e.g., via AllReduce) are sensitive to stragglers and communication delays. The PushSum gossip algorithm is robust to these issues, but only performs approximate distributed averaging. This paper studies Stochastic Gradient Push (SGP), which combines PushSum with stochastic gradient updates. We prove that SGP converges to a stationary point of smooth, non-convex objectives at the same sub-linear rate as SGD, and that all nodes achieve consensus. We empirically validate the performance of SGP on image classification (ResNet-50, ImageNet) and machine translation (Transformer, WMT'16 En-De) workloads. Our code will be made publicly available.

研究动机与目标

  • 针对在慢节点和延迟存在时,同步方法中精确分布式平均的低效问题。
  • 开发一种分布式优化算法,在执行随机梯度更新的同时实现一致性。
  • 在非凸设定下提供收敛到驻点的理论保证,以及亚线性收敛率。
  • 在大规模计算机视觉和自然语言处理工作负载上展示实际有效性。

提出的方法

  • 将基于 PushSum 的 gossip 与随机梯度更新整合,形成 Stochastic Gradient Push (SGP) 算法。
  • 使用增强的延迟感知混合矩阵对网络建模,以考虑通信延迟和虚拟节点。
  • 利用增强矩阵对 SGP 更新给出全局视角,并在延迟节点之间进行去偏的参数跟踪。
  • 证明对光滑非凸目标的驻点收敛以及所有节点之间的一致性,且具有亚线性速率。
  • 在 ResNet-50/ImageNet 和 Transformer/WMT’16 En-De 工作负载上进行经验验证。

实验结果

研究问题

  • RQ1在存在延迟的情况下,Stochastic Gradient Push 是否能够在执行随机梯度更新的同时实现分布式节点的一致性?
  • RQ2与标准 SGD 或完全同步方法相比,SGP 对非凸目标提供了哪些收敛保证?
  • RQ3将 PushSum 与随机梯度结合于分布式深度学习环境中,通信延迟鲁棒性是否仍然存在?
  • RQ4实际基准测试(视觉任务和翻译任务)是否显示出相对于现有异步或同步分布式方法的竞争性性能?

主要发现

  • SGP 在光滑非凸目标的驻点处收敛,速率与 SGD 相同的亚线性。
  • 在所提出的延迟感知增强框架下,所有节点实现一致性。
  • 经验验证表明在图像分类(ResNet-50/ImageNet)和机器翻译(Transformer/WMT'16 En-De)工作负载上有效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。