Skip to main content
QUICK REVIEW

[论文解读] Is Local SGD Better than Minibatch SGD?

Blake Woodworth, Kumar Kshitij Patel|arXiv (Cornell University)|Feb 18, 2020
MRI in cancer diagnosis参考文献 37被引用 45
一句话总结

本文分析 Local SGD(并行/联邦平均),并指出在二次 objectives 下 Local SGD 可以严格优于 minibatch SGD,且带加速变体时为 minimax 最优;对于 general convex objectives,存在区间 Local SGD 能胜过 minibatch SGD,但也存在区间 minibatch SGD 优于 Local SGD 的情形,且 Local SGD 并非普遍最优。

ABSTRACT

We study local SGD (also known as parallel SGD and federated averaging), a natural and frequently used stochastic distributed optimization method. Its theoretical foundations are currently lacking and we highlight how all existing error guarantees in the convex setting are dominated by a simple baseline, minibatch SGD. (1) For quadratic objectives we prove that local SGD strictly dominates minibatch SGD and that accelerated local SGD is minimax optimal for quadratics; (2) For general convex objectives we provide the first guarantee that at least sometimes improves over minibatch SGD; (3) We show that indeed local SGD does not dominate minibatch SGD by presenting a lower bound on the performance of local SGD that is worse than the minibatch SGD guarantee.

研究动机与目标

  • 在与 Local SGD 相同的计算/通信结构下,推动对分布式一阶方法的研究。
  • 刻画在凸目标和二次目标下 Local SGD 何时优于 minibatch SGD。
  • 识别 minibatch SGD 仍不可战胜或 Local SGD 劣势的区间。
  • 给出上界和下界,阐明 Local SGD 的性能权衡。

提出的方法

  • 用 M 个工作者建模 Local SGD,每次通信的本地步数为 K,通信轮数为 R。
  • 将 Local SGD 与在每轮使用总批量 KM 的 minibatch SGD 进行比较。
  • 在具有 H-光滑性和方差界 sigma^2 的一般凸/强凸随机优化框架下进行分析。
  • 证明二次目标下的结果,即带平均的 Local SGD 与 minibatch SGD 相匹配或优于之。
  • 推导一般凸目标的首个非平凡上界,在某些区间可超越 minibatch SGD。
  • 构造一个困难实例,证明在某些区间 Local SGD 可能比 minibatch SGD 更差。

实验结果

研究问题

  • RQ1在二次设置中,Local SGD 是否支配 minibatch SGD,或至少不劣于它?
  • RQ2对于一般凸目标,Local SGD 是否能够超越 minibatch SGD,且在何种条件下?
  • RQ3是否存在基本的下界表明在某些区间 Local SGD 会比 minibatch SGD 更差?
  • RQ4在相同计算/通信约束下,描述 Local SGD 性能的精确上界和下界是什么?

主要发现

  • 在二次目标下,Local SGD 严格支配 minibatch SGD,且加速的 Local SGD 是 minimax 最优的。
  • 对于一般凸目标,存在一个区间(当 M 较大且 K ⩾ R)其中 Local SGD 优于 minibatch SGD。
  • 存在一个下界表明在某些区间 Local SGD 可能比 minibatch SGD 更差,经验结果(逻辑回归)也与此行为一致。
  • 总体而言,Local SGD 通常优于 minibatch SGD,但并非普遍最优;存在 minibatch SGD 或 thumb-twiddling SGD 在某些区间优于 Local SGD 的情形。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。