[论文解读] Distributed Learning with Compressed Gradient Differences
介绍了 DIANA 算法,它对分布式学习中的梯度差进行压缩,在强凸和非凸设置下具有理论收敛保证,并与 QSGD 和 TernGrad 进行经验对比。
Training large machine learning models requires a distributed computing approach, with communication of the model updates being the bottleneck. For this reason, several methods based on the compression (e.g., sparsification and/or quantization) of updates were recently proposed, including QSGD (Alistarh et al., 2017), TernGrad (Wen et al., 2017), SignSGD (Bernstein et al., 2018), and DQGD (Khirirat et al., 2018). However, none of these methods are able to learn the gradients, which renders them incapable of converging to the true optimum in the batch mode. In this work we propose a new distributed learning method -- DIANA -- which resolves this issue via compression of gradient differences. We perform a theoretical analysis in the strongly convex and nonconvex settings and show that our rates are superior to existing rates. We also provide theory to support non-smooth regularizers study the difference between quantization schemes. Our analysis of block-quantization and differences between $\ell_2$ and $\ell_{\infty}$ quantization closes the gaps in theory and practice. Finally, by applying our analysis technique to TernGrad, we establish the first convergence rate for this method.
研究动机与目标
- 解决大型模型分布式优化中的通信瓶颈。
- 开发基于压缩的方法,保持收敛到真实最优解。
- 在强凸和非凸情形下提供理论保证。
- 处理非光滑正则化项并分析分块量化与维度量化的比较。
- 将该方法与现有的压缩方案如 QSGD、TernGrad 和 DQGD 进行比较定位。
提出的方法
- 提出 DIANA,它对梯度差而非完整梯度进行压缩以减少通信。
- 在每个工作节点引入记忆向量 h_i^k,以学习最优梯度并确保差分收敛到零。
- 使用无偏随机梯度 g_i^k,方差有界,并形成差分 Δ_i^k = g_i^k − h_i^k。
- 对 Δ_i^k 应用 p-quantization 以获得发送给服务器的压缩更新。
- 聚合量化更新以形成全局方向并进行带动量的近端梯度步(v^k)。
- 提供一个包含分块量化的框架,并分析不同 p 范数(p ≥ 1)对量化的影响。
实验结果
研究问题
- RQ1在具有异构数据的分布式设置中,梯度差压缩是否能保证收敛到真实最优解?
- RQ2在强凸和非凸情形下,DIANA 在光滑性和正则化假设下的收敛速率是多少?
- RQ3不同的量化方案(p-quantization、分块量化)如何影响通信和收敛?
- RQ4在理论和实验中,DIANA 与现有的压缩更新方法如 QSGD 和 TernGrad 相比如何?
- RQ5非光滑正则化项和动量对收敛性及可行性有何影响?
主要发现
- DIANA 在强凸和非凸目标下可达到与现有基于压缩的方法竞争甚至优于它们的收敛速率。
- 带记忆学习最优梯度的梯度差压缩使得在压缩的情况下仍能学习到真实最优解。
- 分块量化和更高的 p 范数(如 p = ∞)在合适参数选择下可以减少通信而不牺牲收敛性。
- 该分析在比以往更广泛的假设下为 Terngrad(TernGrad)和 1-bit QSGD 提供了新的收敛性保证。
- 实证实验表明,在逻辑回归和 CIFAR-10 场景下,带动量的 DIANA 通常优于 QSGD、TernGrad 和 DQGD。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。