Skip to main content
QUICK REVIEW

[论文解读] Minibatch vs Local SGD for Heterogeneous Distributed Learning

Blake Woodworth, Kumar Kshitij Patel|arXiv (Cornell University)|Jun 8, 2020
Stochastic Gradient Optimization Techniques参考文献 24被引用 45
一句话总结

该论文在异构分布式数据和有限通信条件下分析 Local SGD 与 Minibatch SGD,结果显示 Minibatch SGD 通常优于 Local SGD,带加速的 Minibatch SGD 在高异质性下达到最优,而 Local SGD 只有在近同质的情形下才可能改善。

ABSTRACT

We analyze Local SGD (aka parallel or federated SGD) and Minibatch SGD in the heterogeneous distributed setting, where each machine has access to stochastic gradient estimates for a different, machine-specific, convex objective; the goal is to optimize w.r.t. the average objective; and machines can only communicate intermittently. We argue that, (i) Minibatch SGD (even without acceleration) dominates all existing analysis of Local SGD in this setting, (ii) accelerated Minibatch SGD is optimal when the heterogeneity is high, and (iii) present the first upper bound for Local SGD that improves over Minibatch SGD in a non-homogeneous regime.

研究动机与目标

  • 推动在数据分布在异构机器、通信受限的情形下进行分布式训练。
  • 比较异质环境下 Minibatch SGD 与 Local SGD 的收敛保证。
  • 表征 Local SGD 在何种情形能或不能超越 Minibatch SGD。
  • 给出更精细的分析,指出何时加速有帮助,何时则无效。
  • 指明在异质性情形下可能需要新方法的区间。

提出的方法

  • 定义包含 M 台机器、局部目标 F_m 与平均目标 F 的异质分布式优化设置。
  • 分析 Minibatch SGD 梯度的无偏性与方差,并推导与异质性度量 zeta_* 无关的收敛界。
  • 给出带加速的 Minibatch SGD 边界,并在凸/强凸假设下表明其等同或优于标准 Minibatch SGD。
  • 给出现有在异质设置下的 Local SGD 分析并推导下界,显示局限性。
  • 引入更精细的异质性度量 bar(zeta)^2,使得在近同质情形下恢复 Local SGD 的改进。
  • 给出一个双步长框架(内步长/外步长),在 Minibatch 与 Local SGD 之间插值,并在最优选取时提供更好的保证。

实验结果

研究问题

  • RQ1在有限通信的异质分布式学习中,Local SGD 会超过 Minibatch SGD 吗?
  • RQ2异质性(zeta_* 与 bar(zeta))如何影响 Local SGD 与 Minibatch SGD 的相对性能?
  • RQ3在高度异质的情形下,加速 Minibatch SGD 是否最优?
  • RQ4在近同质的情形下,在哪些条件下 Local SGD 能优于 Minibatch SGD(若有)?
  • RQ5通过内/外步长的插值能否弥合两种方法之间的差距?
  • RQ6在此情形下,分布式“零遵循”算法的基本下界是什么?

主要发现

  • Minibatch SGD 与带加速的 Minibatch SGD 的收敛界与异质性度量 zeta_* 无关,因此对数据异质性具有鲁棒性。
  • 在异质设定下,现有的 Local-SGD 分析在极近同质情形外不能超越 Minibatch SGD;当异质性足够大时,Local SGD 明显更差。
  • 更精细的异质性度量 bar(zeta)^2 使 Local SGD 在近同质情形下优于 Minibatch SGD,成为首个此类结果。
  • 对于中度高的异质性,加速 Minibatch SGD 是最优的,因为在许多情形下下界排除了 Local SGD 的改进。
  • 分布式零遵循算法下界表明在大异质性下加速 Minibatch SGD 是最优的,只有当 bar(zeta)^2 较小时才可能有改进;中等异质性水平仍存在明显差距。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。