Skip to main content
QUICK REVIEW

[论文解读] Error Feedback Fixes SignSGD and other Gradient Compression Schemes

Sai Praneeth Karimireddy, Quentin Rebjock|arXiv (Cornell University)|Jan 28, 2019
Stochastic Gradient Optimization Techniques被引用 153
一句话总结

本文表明偏置梯度压缩方法(如 SignSGD)可能收敛失败或泛化差,并引入带误差反馈的 EF-SGD 来恢复 SGD 的收敛速度并在压缩下改善泛化。

ABSTRACT

Sign-based algorithms (e.g. signSGD) have been proposed as a biased gradient compression technique to alleviate the communication bottleneck in training large neural networks across multiple workers. We show simple convex counter-examples where signSGD does not converge to the optimum. Further, even when it does converge, signSGD may generalize poorly when compared with SGD. These issues arise because of the biased nature of the sign compression operator. We then show that using error-feedback, i.e. incorporating the error made by the compression operator into the next step, overcomes these issues. We prove that our algorithm EF-SGD with arbitrary compression operator achieves the same rate of convergence as SGD without any additional assumptions. Thus EF-SGD achieves gradient compression for free. Our experiments thoroughly substantiate the theory and show that error-feedback improves both convergence and generalization. Code can be found at \url{https://github.com/epfml/error-feedback-SGD}.

研究动机与目标

  • 展示基于符号的梯度压缩(如 SIGNSGD)的局限性,包括潜在的不收敛和泛化差。
  • 提出并分析一个误差反馈机制(EF-SGD),使在压缩下实现收敛并保持 SGD 速率。
  • 为非凸与非光滑设置提供理论保证。
  • 从经验上验证 EF-SG​D 在与显著通信节省的前提下能匹配 SGD 的性能。

提出的方法

  • 引入 EF-SIGNSGD,一种带误差反馈的 SignSGD 变体,将累积的压缩误差并入下一步。
  • 将压缩器建模为 δ-近似算子,并在标准平滑性与方差假设下证明 EF-SGD 收敛到与 SGD 相似的速率。
  • 证明误差反馈使迭代保持在梯度的张成空间内,并减轻压缩带来的偏差。
  • 将分析扩展到非凸与非光滑设置,给出明确的收敛界。
  • 在 CIFAR-10/100 上使用 VGG 与 ResNet 进行经验验证,与 SGD、SIGNSGD、SIGNSGDM 进行对比。

实验结果

研究问题

  • RQ1带有偏差梯度压缩的方案(如 SignSGD)能否像 SGD 一样收敛并泛化,还是在标准假设下天生就会失败?
  • RQ2向压缩梯度添加误差反馈是否能恢复收敛并改善泛化以接近 SGD?
  • RQ3在平滑和非平滑设置下,带压缩的 EF-SGD 的理论收敛速率是多少?
  • RQ4在深度网络中,与 SGD 及其他符号基方法相比,EF-SIGNSGD 在不同批量大小下的经验表现如何?

主要发现

批量大小SGDMSIGNSGDSIGNSGDMEF-SIGNSGD
12875.35-2.21-3.15-0.92
3276.22-3.04-3.57-0.79
874.91-36.35-6.60-0.64
  • SignSGD 在有偏差梯度压缩的情况下可能收敛失败,泛化甚至比 SGD 更差。
  • 引入误差反馈(EF-SGD)在非凸光滑目标下实现与 SGD 相匹配速率的收敛,实质上实现了对压缩的“免费” 。
  • EF-SIGNSGD 将迭代保持在过去梯度的张成空间中,这在参数过度拟合设置下提升泛化至接近 SGD 的水平。
  • 在 CIFAR-10/100 的 ResNet/VGG 实验显示 EF-SIGNSGD 的表现优于 SIGNSGD 和 SIGNSGDM,并且接近 SGD,同时将通信量降低约 64 倍。
  • 理论结果扩展到非平滑凸情况,压缩误差影响收敛速率中的主导项。
  • EF-SIGNSGD 在 CIFAR-100 的泛化缺口显著小于 SIGNSGD/ALL 另类,尤其在较小的批量大小下。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。