Skip to main content
QUICK REVIEW

[论文解读] Revisiting Distributed Synchronous SGD

Pan, Xinghao, Jianmin Chen|arXiv (Cornell University)|Feb 19, 2017
Distributed and Parallel Computing Systems参考文献 27被引用 609
一句话总结

论文挑战同步 SGD 在分布式环境不可行的观点,并展示使用备份工作节点的同步优化可以避免异步噪声并减轻拖延者影响,从而实现更快的收敛和更好的测试准确性。

ABSTRACT

Distributed training of deep learning models on large-scale training data is typically conducted with asynchronous stochastic optimization to maximize the rate of updates, at the cost of additional noise introduced from asynchrony. In contrast, the synchronous approach is often thought to be impractical due to idle time wasted on waiting for straggling workers. We revisit these conventional beliefs in this paper, and examine the weaknesses of both approaches. We demonstrate that a third approach, synchronous optimization with backup workers, can avoid asynchronous noise while mitigating for the worst stragglers. Our approach is empirically validated and shown to converge faster and to better test accuracies.

研究动机与目标

  • 重新评估分布式训练中同步 SGD 的可行性。
  • 找出异步与同步方法的弱点。
  • 提出一个备份工作节点的同步优化方法,以减少空闲时间和拖延者的影响。
  • 证明所提方法在经验上具有更快的收敛速度和更高的测试准确性。

提出的方法

  • 将带备份工作节点的同步优化作为纯异步和标准同步方案的替代方案引入。
  • 分析备份工作节点如何在不引入过多噪声的情况下减少空闲时间并缓解拖延者。
  • 提供经验证的实证验证,显示更快的收敛速度和更高的测试准确性。

实验结果

研究问题

  • RQ1通过使用备份工作节点,是否可以在分布式环境中使同步 SGD 变得可行?
  • RQ2与异步 SGD 相比,带备份工作节点的同步优化在收敛性和测试准确性方面的对比如何?
  • RQ3这些方案在空闲时间、拖延者和优化噪声之间有哪些权衡?
  • RQ4所提出的方法在具有代表性的深度学习训练场景中是否更快收敛?

主要发现

  • 带备份工作节点的同步优化可以避免异步噪声。
  • backup-wroker 方法减轻了拖延者的影响。
  • 该方法在实践中收敛得更快。
  • 经验证的实验显示该方法具有更好的测试准确性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。