[论文解读] Local SGD Converges Fast and Communicates Little
本文证明 Local SGD 在工作者数量和小批量大小上可实现线性加速,同时相比小批量 SGD 将通信轮次降低至最多 O(sqrt(T/(Kb))) 的数量级,对于凸问题。
Mini-batch stochastic gradient descent (SGD) is state of the art in large scale distributed training. The scheme can reach a linear speedup with respect to the number of workers, but this is rarely seen in practice as the scheme often suffers from large network delays and bandwidth limits. To overcome this communication bottleneck recent works propose to reduce the communication frequency. An algorithm of this type is local SGD that runs SGD independently in parallel on different workers and averages the sequences only once in a while. This scheme shows promising results in practice, but eluded thorough theoretical analysis. We prove concise convergence rates for local SGD on convex problems and show that it converges at the same rate as mini-batch SGD in terms of number of evaluated gradients, that is, the scheme achieves linear speedup in the number of workers and mini-batch size. The number of communication rounds can be reduced up to a factor of T^{1/2}---where T denotes the number of total steps---compared to mini-batch SGD. This also holds for asynchronous implementations. Local SGD can also be used for large scale training of deep learning models. The results shown here aim serving as a guideline to further explore the theoretical and practical aspects of local SGD in these applications.
研究动机与目标
- 动机并解决大规模分布式 SGD 的通信瓶颈。
- 分析工作者独立演化并定期同步的 Local SGD。
- 证明对局部更新求平均可在计算上实现线性加速并减少通信轮次。
- 提供步长和同步频率的实际指导。
提出的方法
- 将问题建模为具有 L-光滑且 mu-强凸的有限和凸优化。
- 以 mini-batch 大小 b 运行 K 个并行的 SGD 序列,并在每隔 H 次迭代通过求平均进行同步。
- 定义一个虚拟的平均序列来分析波动,并展示通过求平均实现方差降低。
- 在适当的步长下推导平均迭代的收敛速度,渐近表现为 O(1/(KT B))。
- 通过将 sigma^2 替换为 sigma^2/b 将方差降低考虑在内,推广到 mini-batch Local SGD。
- 给出一个异步变体,其中并非每步都需要同步,并给出同样的收敛性保证。
实验结果
研究问题
- RQ1在局部演化的 SGD 序列上求平均是否相对于在单个工作者上运行 SGD 产生线性加速?
- RQ2通信区间 H 如何影响收敛,以及我们是否能够量化计算与通信之间的权衡?
- RQ3Local SGD 是否能在减少通信轮次的同时达到与 mini-batch SGD 相同的收敛速度?b 与 K 如何相互作用?
- RQ4在延迟或非同步更新下,异步本地 SGD 方案是否仍保持类似的收敛性质?
主要发现
- 对于凸问题,Local SGD 在工作者数量 K 和局部小批量大小 b 上实现线性加速。
- 在同步区间 H = O(sqrt(T/(Kb))) 时,该方法将通信轮次最多降低 O(sqrt(T/(Kb))) 倍,且不影响渐近收敛。
- 平均迭代的收敛速度为 E[f(x̂_T)] - f* = O((G^2)/(mu b K T)),再加上低阶项,在计算上与并行 mini-batch SGD 相匹配,同时降低通信。
- 对于 mini-batch Local SGD,方差项按 sigma^2/b 标定,保持关于 b 和 K 的线性加速(速率约 O(1/(KTb)))。
- 一种异步版本在有界延迟下显示出相似的速率,意味着在不严格同步的情况下也能实现加速。
- 理论结果为在选择 H 和步长时平衡计算和通信提供了实践指南。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。