Skip to main content
QUICK REVIEW

[论文解读] Parallel SGD: When does averaging help?

Jian Zhang, Christopher De|arXiv (Cornell University)|Jun 23, 2016
Stochastic Gradient Optimization Techniques参考文献 2被引用 78
一句话总结

本文研究了并行随机梯度下降(SGD)中的周期性模型平均,表明在梯度方差较高的非凸问题中,频繁平均可降低方差并加速收敛;在非凸设置中,通过避免过早平均发散的局部极小值,可防止得到较差的解。研究发现,最优平均频率取决于梯度方差包络与曲率,且在合成数据和真实数据集(包括MNIST和E2006)上得到了实证验证。

ABSTRACT

Consider a number of workers running SGD independently on the same pool of data and averaging the models every once in a while -- a common but not well understood practice. We study model averaging as a variance-reducing mechanism and describe two ways in which the frequency of averaging affects convergence. For convex objectives, we show the benefit of frequent averaging depends on the gradient variance envelope. For non-convex objectives, we illustrate that this benefit depends on the presence of multiple globally optimal points. We complement our findings with multicore experiments on both synthetic and real data.

研究动机与目标

  • 理解周期性模型平均在并行SGD中改善收敛性的条件。
  • 解决一个广泛使用但缺乏理论理解的实践问题:定期对多个并行SGD工作进程的模型进行平均。
  • 研究更频繁的平均是否总是能带来更快收敛,特别是在单次平均可能失效的非凸设置中。
  • 提出一个梯度方差模型,以解释周期性平均的实证优势,特别是从梯度方差包络与曲率角度。
  • 通过在真实与合成数据上的多核实验验证理论洞见,涵盖逻辑回归与MNIST上的卷积神经网络(CNNs)。

提出的方法

  • 提出一种新型梯度方差模型,由梯度方差包络与曲率共同定义,参数化为 ρ = β² / σ²,其中 β² 表征曲率,σ² 为最优值处的方差。
  • 通过推导工作进程与平均模型之间偏差的界,分析凸目标函数,表明在远离最优值时方差较高时,频繁平均可减小噪声球的大小。
  • 通过建模非凸问题,表明单次平均可能将不同局部极小值处的模型合并,导致更差的解;而周期性平均可使工作进程保持在相同的吸引盆中。
  • 在具有 M 个工作进程的多核系统上实现周期性平均,每个阶段包含 K 步后对模型进行平均。
  • 使用线搜索方法,通过沿最优值的随机直线测量梯度方差,估计 β² 与 σ²,从而实现对 ρ 的经验估计。
  • 在多个数据集与模型上,比较单次平均、周期性平均(每128步与每1024步)以及单工作进程SGD的表现,涵盖逻辑回归与MNIST上的CNNs。

实验结果

研究问题

  • RQ1与单次平均相比,周期性平均在凸并行SGD中于何种条件下能改善收敛性?
  • RQ2梯度方差包络如何影响周期性平均在凸优化中的有效性?
  • RQ3为何单次平均在非凸设置中常会失效,周期性平均如何缓解此问题?
  • RQ4目标函数的曲率(由 β² 表征)在多大程度上影响频繁平均的优势?
  • RQ5基于 ρ = β² / σ² 的理论模型能否预测周期性平均在不同数据集与模型上的实证性能提升?

主要发现

  • 在凸问题中,当远离最优值时梯度方差较高时,周期性平均可实现更快收敛,表现为 ρ = β² / σ² 值更大。
  • 在稀疏E2006数据集上的逻辑回归中,每128步进行周期性平均优于单次平均,且加速效果与更高的 ρ 值显著相关。
  • 在密集的YearPrediction数据上,由于 ρ 值较小,周期性平均与单次平均的性能差距微乎其微,验证了模型预测。
  • 在非凸设置中,单次平均的性能劣于单工作进程SGD,常导致比最差单个工作进程更差的训练损失与测试误差。
  • 在MNIST上的CNN中,每128步进行周期性平均可改善收敛性与泛化性能,优于单次平均与最佳单个工作进程。
  • 实证结果验证了理论模型:周期性平均带来的加速效果在不同数据集与模型上与实测 ρ 值高度相关。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。