QUICK REVIEW

[论文解读] MATCHA: Speeding Up Decentralized SGD via Matching Decomposition Sampling

Jianyu Wang, Anit Kumar Sahu|arXiv (Cornell University)|May 23, 2019

Stochastic Gradient Optimization Techniques参考文献 36被引用 41

一句话总结

MATCHA 通过将网络分解为匹配并以概率方式激活它们来加速去中心化的 SGD，从而在降低通信时间的同时保持或提高收敛速度。

ABSTRACT

This paper studies the problem of error-runtime trade-off, typically encountered in decentralized training based on stochastic gradient descent (SGD) using a given network. While a denser (sparser) network topology results in faster (slower) error convergence in terms of iterations, it incurs more (less) communication time/delay per iteration. In this paper, we propose MATCHA, an algorithm that can achieve a win-win in this error-runtime trade-off for any arbitrary network topology. The main idea of MATCHA is to parallelize inter-node communication by decomposing the topology into matchings. To preserve fast error convergence speed, it identifies and communicates more frequently over critical links, and saves communication time by using other links less frequently. Experiments on a suite of datasets and deep neural networks validate the theoretical analyses and demonstrate that MATCHA takes up to $5 imes$ less time than vanilla decentralized SGD to reach the same training loss.

研究动机与目标

在任意网络拓扑下激励并分析去中心化 SGD 的误差-运行时间权衡。
提出一种匹配分解采样方法，在减少通信的同时保持收敛速度。
提供理论收敛保证并量化通信预算对性能的影响。
在多样的数据集和网络拓扑上的深度学习任务中展示经验收益。

提出的方法

将基础通信图分解为 M 个不相交的匹配，以实现并行、低度的通信。
为每个匹配分配激活概率 p_j 以控制每次迭代的期望通信时间，约束为 sum p_j ≤ C_b M。
求解凸优化以最大化期望拓扑的代数连通性 λ2：在预算约束和 0 ≤ p_j ≤ 1 的条件下，最大化 λ2(sum_j p_j L_j)。
每次迭代通过按 p_j 独立采样匹配来生成随机拓扑序列，产生一个可能稀疏或不连通的活跃子图。
通过将聚合矩阵 W^(k) 调整为 W^(k) = I − α L^(k)（计算得到的 α 以确保 ρ < 1），来优化一致性步骤，其中 L^(k) 是活跃拉普拉斯矩阵。
为非凸目标提供非渐近收敛保证，并在某些设定下显示线性加速。

实验结果

研究问题

RQ1网络拓扑与通信频率如何影响去中心化 SGD 的误差对墙钟时间的收敛性？
RQ2以有预算的概率激活不同匹配是否可以改善通信成本与收敛速度之间的权衡？
RQ3在任意通信预算下对非凸目标使用 Matcha 时，理论保证（收敛性与速度）是什么？
RQ4Matcha 的理论主张如何转化为在不同图拓扑上的视觉与语言任务中的实证收益？

主要发现

与原生去中心化 SGD 相比，Matcha 在达到相同训练损失方面的墙钟时间最多可下降 5.2×。
激活更多连接性关键链接，同时减少不太重要的链路，通过维持或降低谱范数 ρ 来保持或改善误差收敛。
给定基础图，在合适的通信预算下，Matcha 可以保持期望拓扑的相同或更好的 λ2（代数连通性），有助于更快的收敛。
非渐近分析表明，在适当的学习率和谱特性下，Matcha 对非凸目标收敛到驻点。
在 CIFAR-10/100 和 Penn Treebank 的经验结果表明，Matcha 优于原生 DecenSGD，并且在多种拓扑下与周期性 DecenSGD 相当甚至更好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。