Skip to main content
QUICK REVIEW

[论文解读] GADMM: Fast and Communication Efficient Framework for Distributed Machine Learning

Anis Elgabli, Jihong Park|arXiv (Cornell University)|Aug 30, 2019
Indoor and Outdoor Localization Technologies参考文献 55被引用 49
一句话总结

GADMM 引入了一种去中心化的两邻居通信方案,将工作节点分成两组,以在减少通信开销的同时实现快速收敛,并扩展为适用于时变网络的 Dynamic GADMM。

ABSTRACT

When the data is distributed across multiple servers, lowering the communication cost between the servers (or workers) while solving the distributed learning problem is an important problem and is the focus of this paper. In particular, we propose a fast, and communication-efficient decentralized framework to solve the distributed machine learning (DML) problem. The proposed algorithm, Group Alternating Direction Method of Multipliers (GADMM) is based on the Alternating Direction Method of Multipliers (ADMM) framework. The key novelty in GADMM is that it solves the problem in a decentralized topology where at most half of the workers are competing for the limited communication resources at any given time. Moreover, each worker exchanges the locally trained model only with two neighboring workers, thereby training a global model with a lower amount of communication overhead in each exchange. We prove that GADMM converges to the optimal solution for convex loss functions, and numerically show that it converges faster and more communication-efficient than the state-of-the-art communication-efficient algorithms such as the Lazily Aggregated Gradient (LAG) and dual averaging, in linear and logistic regression tasks on synthetic and real datasets. Furthermore, we propose Dynamic GADMM (D-GADMM), a variant of GADMM, and prove its convergence under the time-varying network topology of the workers.

研究动机与目标

  • 动机:在大规模分布式机器学习(DML)中提升通信效率的分布式优化的需求。
  • 提出一个基于去中心化 ADMM 的框架(GADMM),以减少每次迭代的通信量。
  • 在双组、双邻居通信拓扑下,保证凸损失的收敛到最优解。
  • 引入 Dynamic GADMM (D-GADMM) 以在保持收敛性的同时处理时变的网络拓扑。

提出的方法

  • 将分布式学习表述为一个具有局部目标 f_n 和全局参数 Theta 的一致性问题。
  • 通过将工作节点分成 head 和 tail 两组并在两邻域通信下强制 Theta_n = Theta_{n+1},来构建 GADMM。
  • 推导增广拉格朗日函数及更新规则,使 head 组工作节点能够并行更新,tail 组完成迭代,从而在凸问题下确保收敛。
  • 通过原-对偶残量和一个李雅普诺夫函数,在凸性条件下证明 GADMM 收敛到最优解。
  • 将该框架扩展到时变网络,利用 D-GADMM,定期刷新邻居关系并保持收敛性保证。

实验结果

研究问题

  • RQ1基于去中心化的 ADMM 的方法能否在凸损失函数下达到与集中式 ADMM 相同的最优性?
  • RQ2在没有中心协调的分布式设置中,如何在保持收敛性的同时将通信降到最低?
  • RQ3将每个工作节点限制为两个邻居对收敛速度和通信开销有哪些影响?
  • RQ4该框架是否能够适应时变网络拓扑并仍然收敛?
  • RQ5在静态拓扑中,随机化邻居连接(D-GADMM)是否能提高收敛速度?

主要发现

  • GADMM 在两邻居、两组通信模式下,对凸损失函数收敛到最优解。
  • 该方法在合成数据和真实数据的线性回归和逻辑回归任务中,通信开销低于集中式 ADMM 及其他基线如 LAG 和对偶平均。
  • D-GADMM 将 GADMM 扩展到时变网络,继承收敛性保证,同时通过随时间改变连接性可能提升收敛速度。
  • 每次迭代仅需部分工作节点通信,降低相较于完全集中式方案的上行/下行瓶颈。
  • GADMM 使 head 与 tail 组内可以并行更新,尽管通信稀疏,仍加速实际收敛。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。