[论文解读] Decentralized Stochastic Optimization and Gossip Algorithms with Compressed Communication
引入 Choco-SGD 与 Choco-Gossip,是具压缩通信的分布式 SGD 与 gossip 算法,在偏置/无偏压缩以及多种网络拓扑下证明收敛速率与线性一致性。
We consider decentralized stochastic optimization with the objective function (e.g. data samples for machine learning task) being distributed over $n$ machines that can only communicate to their neighbors on a fixed communication graph. To reduce the communication bottleneck, the nodes compress (e.g. quantize or sparsify) their model updates. We cover both unbiased and biased compression operators with quality denoted by $ω\leq 1$ ($ω=1$ meaning no compression). We (i) propose a novel gossip-based stochastic gradient descent algorithm, CHOCO-SGD, that converges at rate $\mathcal{O}\left(1/(nT) + 1/(T δ^2 ω)^2 ight)$ for strongly convex objectives, where $T$ denotes the number of iterations and $δ$ the eigengap of the connectivity matrix. Despite compression quality and network connectivity affecting the higher order terms, the first term in the rate, $\mathcal{O}(1/(nT))$, is the same as for the centralized baseline with exact communication. We (ii) present a novel gossip algorithm, CHOCO-GOSSIP, for the average consensus problem that converges in time $\mathcal{O}(1/(δ^2ω) \log (1/ε))$ for accuracy $ε> 0$. This is (up to our knowledge) the first gossip algorithm that supports arbitrary compressed messages for $ω> 0$ and still exhibits linear convergence. We (iii) show in experiments that both of our algorithms do outperform the respective state-of-the-art baselines and CHOCO-SGD can reduce communication by at least two orders of magnitudes.
研究动机与目标
- 研究由固定图连接的多个节点分布数据的去中心化随机优化。
- 开发使用压缩更新以缓解带宽瓶颈的通信高效算法。
- 建立在关键项上与集中式小批量 SGD 相匹配的收敛性保证,同时利用网络拓扑结构和压缩质量。
提出的方法
- 提出 Choco-SGD,一种基于 gossip 的去中心化 SGD,使用压缩通信,在强凸目标下达到速率 O(1/(nT) + 1/(T δ^2 ω)^2)。
- 引入 Choco-Gossip,一种用于具有任意压缩的平均一致性的 gossip 算法,证明线性收敛速率 O(1/(δ^2 ω) log(1/ε))。
- 允许由 ω ≤ 1 表征的无偏压缩和有偏压缩算子,其中 ω = 1 表示没有压缩。
- 给出统一的收敛性分析,显示第一个去中心化随机速率在主项上与集中式小批量 SGD 匹配。
- 证明网络拓扑(通过 δ)和压缩(通过 ω)仅影响收敛速率中的高阶项。
- 从理论和实验上验证 Choco-SGD 与 Choco-Gossip 在性能上优于最先进的基线方法,并显著降低通信成本。
实验结果
研究问题
- RQ1在压缩和网络拓扑存在的情况下,去中心化随机优化能否达到与集中式小批量 SGD 相同的领先阶收敛速度?
- RQ2压缩质量(ω)和网络连通性(δ)如何影响去中心化 SGD 与 gossip 算法的收敛速率?
- RQ3是否有可能设计支持有偏压缩的 gossip 与 SGD 方案,同时保持收敛到真实解?
- RQ4在通信约束下,Choco-SGD 与 Choco-Gossip 的实际实现是否相对于现有的去中心化方法具有经验上的优势?
主要发现
- Choco-SGD 在强凸目标下的收敛速率为 O(1/(nT) + 1/(T δ^2 ω)^2),在主项上与集中式小批量 SGD 相匹配。
- Choco-Gossip 在压缩通信下的平均一致性呈线性收敛,速率为 O(1/(δ^2 ω) log(1/ε))。
- Choco-SGD 的第一项 O(1/(nT)) 无论压缩质量和网络连通性如何都被保留,映射出集中式的性能。
- 在实验中,Choco-SGD 与 Choco-Gossip 优于最先进的基线方法(ECD-SGD、DCD-SGD),其中 Choco-SGD 实现了显著的通信减少。
- Choco-Gossip 支持 ω>0 的任意压缩消息并实现线性收敛,与以往方法需要近乎完美量化不同。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。