QUICK REVIEW

[论文解读] Is Local SGD Better than Minibatch SGD?

Blake Woodworth, Kumar Kshitij Patel|arXiv (Cornell University)|Feb 18, 2020

MRI in cancer diagnosis参考文献 37被引用 45

一句话总结

本文分析 Local SGD（并行/联邦平均），并指出在二次 objectives 下 Local SGD 可以严格优于 minibatch SGD，且带加速变体时为 minimax 最优；对于 general convex objectives，存在区间 Local SGD 能胜过 minibatch SGD，但也存在区间 minibatch SGD 优于 Local SGD 的情形，且 Local SGD 并非普遍最优。

ABSTRACT

We study local SGD (also known as parallel SGD and federated averaging), a natural and frequently used stochastic distributed optimization method. Its theoretical foundations are currently lacking and we highlight how all existing error guarantees in the convex setting are dominated by a simple baseline, minibatch SGD. (1) For quadratic objectives we prove that local SGD strictly dominates minibatch SGD and that accelerated local SGD is minimax optimal for quadratics; (2) For general convex objectives we provide the first guarantee that at least sometimes improves over minibatch SGD; (3) We show that indeed local SGD does not dominate minibatch SGD by presenting a lower bound on the performance of local SGD that is worse than the minibatch SGD guarantee.

研究动机与目标

在与 Local SGD 相同的计算/通信结构下，推动对分布式一阶方法的研究。
刻画在凸目标和二次目标下 Local SGD 何时优于 minibatch SGD。
识别 minibatch SGD 仍不可战胜或 Local SGD 劣势的区间。
给出上界和下界，阐明 Local SGD 的性能权衡。

提出的方法

用 M 个工作者建模 Local SGD，每次通信的本地步数为 K，通信轮数为 R。
将 Local SGD 与在每轮使用总批量 KM 的 minibatch SGD 进行比较。
在具有 H-光滑性和方差界 sigma^2 的一般凸/强凸随机优化框架下进行分析。
证明二次目标下的结果，即带平均的 Local SGD 与 minibatch SGD 相匹配或优于之。
推导一般凸目标的首个非平凡上界，在某些区间可超越 minibatch SGD。
构造一个困难实例，证明在某些区间 Local SGD 可能比 minibatch SGD 更差。

实验结果

研究问题

RQ1在二次设置中，Local SGD 是否支配 minibatch SGD，或至少不劣于它？
RQ2对于一般凸目标，Local SGD 是否能够超越 minibatch SGD，且在何种条件下？
RQ3是否存在基本的下界表明在某些区间 Local SGD 会比 minibatch SGD 更差？
RQ4在相同计算/通信约束下，描述 Local SGD 性能的精确上界和下界是什么？

主要发现

在二次目标下，Local SGD 严格支配 minibatch SGD，且加速的 Local SGD 是 minimax 最优的。
对于一般凸目标，存在一个区间（当 M 较大且 K ⩾ R）其中 Local SGD 优于 minibatch SGD。
存在一个下界表明在某些区间 Local SGD 可能比 minibatch SGD 更差，经验结果（逻辑回归）也与此行为一致。
总体而言，Local SGD 通常优于 minibatch SGD，但并非普遍最优；存在 minibatch SGD 或 thumb-twiddling SGD 在某些区间优于 Local SGD 的情形。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。