[论文解读] Is Local SGD Better than Minibatch SGD?
本文分析 Local SGD(并行/联邦平均),并指出在二次 objectives 下 Local SGD 可以严格优于 minibatch SGD,且带加速变体时为 minimax 最优;对于 general convex objectives,存在区间 Local SGD 能胜过 minibatch SGD,但也存在区间 minibatch SGD 优于 Local SGD 的情形,且 Local SGD 并非普遍最优。
We study local SGD (also known as parallel SGD and federated averaging), a natural and frequently used stochastic distributed optimization method. Its theoretical foundations are currently lacking and we highlight how all existing error guarantees in the convex setting are dominated by a simple baseline, minibatch SGD. (1) For quadratic objectives we prove that local SGD strictly dominates minibatch SGD and that accelerated local SGD is minimax optimal for quadratics; (2) For general convex objectives we provide the first guarantee that at least sometimes improves over minibatch SGD; (3) We show that indeed local SGD does not dominate minibatch SGD by presenting a lower bound on the performance of local SGD that is worse than the minibatch SGD guarantee.
研究动机与目标
- 在与 Local SGD 相同的计算/通信结构下,推动对分布式一阶方法的研究。
- 刻画在凸目标和二次目标下 Local SGD 何时优于 minibatch SGD。
- 识别 minibatch SGD 仍不可战胜或 Local SGD 劣势的区间。
- 给出上界和下界,阐明 Local SGD 的性能权衡。
提出的方法
- 用 M 个工作者建模 Local SGD,每次通信的本地步数为 K,通信轮数为 R。
- 将 Local SGD 与在每轮使用总批量 KM 的 minibatch SGD 进行比较。
- 在具有 H-光滑性和方差界 sigma^2 的一般凸/强凸随机优化框架下进行分析。
- 证明二次目标下的结果,即带平均的 Local SGD 与 minibatch SGD 相匹配或优于之。
- 推导一般凸目标的首个非平凡上界,在某些区间可超越 minibatch SGD。
- 构造一个困难实例,证明在某些区间 Local SGD 可能比 minibatch SGD 更差。
实验结果
研究问题
- RQ1在二次设置中,Local SGD 是否支配 minibatch SGD,或至少不劣于它?
- RQ2对于一般凸目标,Local SGD 是否能够超越 minibatch SGD,且在何种条件下?
- RQ3是否存在基本的下界表明在某些区间 Local SGD 会比 minibatch SGD 更差?
- RQ4在相同计算/通信约束下,描述 Local SGD 性能的精确上界和下界是什么?
主要发现
- 在二次目标下,Local SGD 严格支配 minibatch SGD,且加速的 Local SGD 是 minimax 最优的。
- 对于一般凸目标,存在一个区间(当 M 较大且 K ⩾ R)其中 Local SGD 优于 minibatch SGD。
- 存在一个下界表明在某些区间 Local SGD 可能比 minibatch SGD 更差,经验结果(逻辑回归)也与此行为一致。
- 总体而言,Local SGD 通常优于 minibatch SGD,但并非普遍最优;存在 minibatch SGD 或 thumb-twiddling SGD 在某些区间优于 Local SGD 的情形。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。