[论文解读] On the Computation and Communication Complexity of Parallel SGD with Dynamic Batch Sizes for Stochastic Non-Convex Optimization
本文提出在并行随机梯度下降(SGD)中采用动态批量大小调度,用于非凸优化,实现了最优计算复杂度,同时大幅减少了通信轮数。结果表明,在Polyak-Lojasiewicz(P-L)条件下,指数级批量增长可仅通过$O(\log T)$轮通信实现$O(1/(NT))$的收敛速度;而在一般情况下,采用类似Catalyst的方法可实现$O(1/\sqrt{NT})$的收敛速度,通信轮数为$O(\sqrt{NT}\log(T/N))$。
For SGD based distributed stochastic optimization, computation complexity, measured by the convergence rate in terms of the number of stochastic gradient calls, and communication complexity, measured by the number of inter-node communication rounds, are two most important performance metrics. The classical data-parallel implementation of SGD over $N$ workers can achieve linear speedup of its convergence rate but incurs an inter-node communication round at each batch. We study the benefit of using dynamically increasing batch sizes in parallel SGD for stochastic non-convex optimization by charactering the attained convergence rate and the required number of communication rounds. We show that for stochastic non-convex optimization under the P-L condition, the classical data-parallel SGD with exponentially increasing batch sizes can achieve the fastest known $O(1/(NT))$ convergence with linear speedup using only $\log(T)$ communication rounds. For general stochastic non-convex optimization, we propose a Catalyst-like algorithm to achieve the fastest known $O(1/\sqrt{NT})$ convergence with only $O(\sqrt{NT}\log(\frac{T}{N}))$ communication rounds.
研究动机与目标
- 在保持快速收敛速度的同时,减少分布式非凸优化中的通信开销。
- 分析并行SGD中计算复杂度(SFO调用次数)与通信复杂度(节点间通信轮数)之间的权衡。
- 设计一种动态批量大小策略,在最小化通信轮数的同时保持线性加速性能。
- 通过类似Catalyst的框架,将理论保证扩展至超出P-L条件的一般非凸问题。
提出的方法
- 提出算法1,一种批量大小呈指数增长的并行SGD变体,以减少通信频率。
- 采用动态批量大小调度策略,批量大小按$B_\tau = B_1 \rho^\tau$增长,以平衡方差与收敛性。
- 针对一般非凸问题,提出一种类似Catalyst的算法,结合方差缩减与动态批量处理,以提升通信效率。
- 在每轮通信中对$N$个工作者的模型进行平均,同时随时间增长批量大小以降低梯度方差。
- 在光滑性与有界方差假设下分析收敛性,P-L条件可实现更快的$O(1/(NT))$收敛速率。
- 在类似Catalyst的方法中引入通信跳过策略,将通信轮数减少至$O(\sqrt{NT}\log(T/N))$。
实验结果
研究问题
- RQ1在并行SGD中,动态批量大小调度能否在显著减少通信轮数的同时实现最优计算复杂度?
- RQ2在P-L条件下,为保持$O(1/(NT))$的收敛速度,通信轮数的最小值是多少?
- RQ3能否将类似Catalyst的框架适配于非凸优化,以减少通信复杂度而不损失收敛速率?
- RQ4与经典并行SGD和局部SGD相比,所提方法在通信效率与收敛速度方面表现如何?
主要发现
- 在P-L条件下,所提动态批量大小方法仅通过$O(\log T)$轮通信即可实现$O(1/(NT))$的收敛速度,达到最优计算复杂度,同时最小化通信开销。
- 对于一般非凸问题,类似Catalyst的算法实现$O(1/\sqrt{NT})$的收敛速度,通信轮数为$O(\sqrt{NT}\log(T/N))$,优于经典并行SGD。
- 在分布式逻辑回归上的数值实验表明,所提方法在收敛性上与经典并行SGD相当,但通信轮数显著减少。
- 在CIFAR-10数据集上使用ResNet20进行的深度学习实验表明,该方法在保持与经典并行SGD相当的测试准确率的同时,显著降低了通信频率。
- 动态批量大小策略实现了最小协调下的线性加速,适用于大规模分布式训练。
- 理论分析证实,该方法在标准假设下(光滑性、无偏梯度、有界方差)仍保持收敛性保证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。