QUICK REVIEW

[论文解读] Decentralized Deep Learning with Arbitrary Communication Compression

Anastasia Koloskova, Tao Lin|arXiv (Cornell University)|Jul 22, 2019

Privacy-Preserving Technologies in Data参考文献 58被引用 31

一句话总结

该论文提出 Choco-SGD，一种去中心化随机梯度下降算法，可在非凸深度学习中实现任意通信压缩（如量化和稀疏化），同时在工作节点数量上实现线性加速。其收敛速率为 $\mathcal{O}(1/\sqrt{nT} + 1/((\rho^2\delta T)^{2/3}))$，其中 $n$ 为工作节点数，$T$ 为迭代次数，$\rho$ 为谱间隙，$\delta$ 为压缩比。实验验证表明，该方法显著减少了通信开销，并在点对点和数据中心环境中提升了达到精度所需的时间。

ABSTRACT

Decentralized training of deep learning models is a key element for enabling data privacy and on-device learning over networks, as well as for efficient scaling to large compute clusters. As current approaches suffer from limited bandwidth of the network, we propose the use of communication compression in the decentralized training context. We show that Choco-SGD $-$ recently introduced and analyzed for strongly-convex objectives only $-$ converges under arbitrary high compression ratio on general non-convex functions at the rate $O\bigl(1/\sqrt{nT}\bigr)$ where $T$ denotes the number of iterations and $n$ the number of workers. The algorithm achieves linear speedup in the number of workers and supports higher compression than previous state-of-the art methods. We demonstrate the practical performance of the algorithm in two key scenarios: the training of deep learning models (i) over distributed user devices, connected by a social network and (ii) in a datacenter (outperforming all-reduce time-wise).

研究动机与目标

解决现有去中心化训练方法对压缩算子的限制，以及在高压缩比下无法有效扩展的问题。
实现在资源受限环境（如设备端学习和大规模数据中心）中的高效、通信高效的去中心化训练。
证明在非凸深度学习中，任意压缩可被使用而不损害收敛性或模型泛化能力。
研究去中心化训练在大规模节点数量下的可扩展性，并识别共享的性能瓶颈。

提出的方法

将 Choco-SGD 框架从凸设置扩展至非凸场景，采用基于共识的八卦机制进行梯度交换。
集成任意压缩算子，包括量化（QSGD）、稀疏化（随机/top-k）以及基于符号的压缩并配合归一化。
采用动量变体以在实际场景中提升收敛性和泛化能力。
使用一种平衡压缩误差与梯度下降进展的共识步长，并通过理论分析证明在一般非凸光滑函数下的收敛性。
在两种设置下进行评估：一种是真实的点对点社交网络拓扑，另一种是具有环形/网格拓扑的数据中心。
针对每种压缩方案和拓扑结构对超参数进行调优，以确保与基线去中心化算法的公平比较。

实验结果

研究问题

RQ1在去中心化深度学习中，是否可以不降低收敛性或泛化性能地使用任意通信压缩？
RQ2在高压缩比和非独立同分布（non-IID）数据下，Choco-SGD 是否在工作节点数量上实现了线性加速？
RQ3Choco-SGD 在真实去中心化场景（如在点对点网络上进行设备端训练）中的表现如何？
RQ4在将去中心化训练扩展到大规模节点数量时，实际的通信开销与达到精度时间之间的权衡是什么？
RQ5为何去中心化方案（包括 Choco-SGD）在扩展到大量节点时，仍会落后于集中式基线？

主要发现

Choco-SGD 在非凸函数上实现了工作节点数 $n$ 的线性加速，主导收敛项 $\mathcal{O}(1/\sqrt{nT})$ 与集中式基线一致。
即使在 1 位压缩（如符号+归一化）下，该算法仍能保持高测试精度，仅需比全精度训练多出少量训练迭代。
在 32 个节点的社交网络点对点训练中，Choco-SGD 相较于集中式训练将传输比特数减少了 95%，同时达到了相近的测试精度。
在 ImageNet 上使用 ResNet-50 的数据中心环境中，Choco-SGD 通过减少通信开销，实现了达到精度时间的改进。
扩展至 64 个节点时，发现去中心化方案（包括 Choco-SGD）所需的训练轮数远超集中式训练，表明存在共享的可扩展性限制。
在大规模下，集中式与去中心化方案之间的测试精度差距依然存在，凸显了去中心化学习仍面临开放挑战。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。