Skip to main content
QUICK REVIEW

[论文解读] Sparsified SGD with Memory

Sebastian U. Stich, Jean-Baptiste Cordonnier|arXiv (Cornell University)|Sep 20, 2018
Stochastic Gradient Optimization Techniques被引用 233
一句话总结

该论文分析带有 k-sparsification 的 SGD 以及误差补偿内存,证明其收敛速度与原生 SGD 相同,同时显著降低通信量。

ABSTRACT

Huge scale machine learning problems are nowadays tackled by distributed optimization algorithms, i.e. algorithms that leverage the compute power of many devices for training. The communication overhead is a key bottleneck that hinders perfect scalability. Various recent works proposed to use quantization or sparsification techniques to reduce the amount of data that needs to be communicated, for instance by only sending the most significant entries of the stochastic gradient (top-k sparsification). Whilst such schemes showed very promising performance in practice, they have eluded theoretical analysis so far. In this work we analyze Stochastic Gradient Descent (SGD) with k-sparsification or compression (for instance top-k or random-k) and show that this scheme converges at the same rate as vanilla SGD when equipped with error compensation (keeping track of accumulated errors in memory). That is, communication can be reduced by a factor of the dimension of the problem (sometimes even more) whilst still converging at the same rate. We present numerical experiments to illustrate the theoretical findings and the better scalability for distributed applications.

研究动机与目标

  • 推动在大规模学习中减少分布式 SGD 的通信。
  • 引入基于记忆的误差补偿机制,结合稀疏更新。
  • 证明在 k-contraction 运算符下,带记忆的 SGD 收敛。
  • 证明 top-k 和 rand-k 稀疏化可以达到 vanilla SGD 的收敛速度。
  • 通过多核设置的实验展示实际可扩展性。

提出的方法

  • 定义减少通信更新的 k-contraction 压缩算子。
  • 引入记忆 m_t,用以累积被抑制的梯度信息,并在后续迭代中注入。
  • 用更新式 g_t = comp_k(m_t + eta_t ∇f_i_t(x_t)) 和记忆更新 m_{t+1} = m_t + eta_t ∇f_i_t(x_t) - g_t 构造 Mem-SGD。
  • 给出对平均迭代 x̄_T 的收敛界,取步长 eta_t = 8 / (mu(a+t))。
  • 证明当 T = Ω(d/k * sqrt(κ)) 时,该方法达到与 vanilla SGD 相同的收敛速率,其中 κ = L/μ。
  • 可选地扩展为带共享内存的并行 Mem-SGD 变体,适用于多核设置。

实验结果

研究问题

  • RQ1带 k-sparsification 与记忆的 SGD 是否能保持与 vanilla SGD 相同的收敛速率?
  • RQ2在 top-k 和 rand-k 运算符下,记忆补偿如何影响方差与收敛?
  • RQ3压缩级别 k 对收敛与通信的理论与实际影响是什么?
  • RQ4Mem-SGD 能否在并行/共享内存设置中扩展而不牺牲收敛速率?

主要发现

  • 在适当的步长下,Mem-SGD 在 0<k≤d 条件下的收敛速率与 vanilla SGD 相同。
  • 收敛速率表达式包含以 d^2/k^2 和 d^3/k^3 为量纲的项,但适当的平均后,速率与 SGD 相匹配。
  • 在顺序实验中,Top-k 稀疏通常优于 Rand-k,显著提高通信效率。
  • 并行 Mem-SGD 在多核实验中实现线性加速,同时保持收敛并降低通信。
  • 实证结果显示 Mem-SGD 相对 QSGD 在相似精度下传输的数据位数要低几个量级。
  • 对于密集数据,Top-1 稀疏相对于 SGD 将通信量减少约 10^3 倍;对于稀疏数据,Top-10 将减少约 10 倍。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。