QUICK REVIEW

[论文解读] Variance Reduction in SGD by Distributed Importance Sampling

Guillaume Alain, Alex Lamb|arXiv (Cornell University)|Nov 20, 2015

Domain Adaptation and Few-Shot Learning参考文献 13被引用 87

一句话总结

本文提出一种分布式随机梯度下降（SGD）方法，通过使用重要性采样优先选择最具信息量的训练样本，以降低梯度方差。多个机器上的工作节点并行计算梯度范数，中央参数服务器根据这些范数选择样本以最小化方差，即使在使用过时的重要权重时也能实现更快收敛。

ABSTRACT

Humans are able to accelerate their learning by selecting training materials that are the most informative and at the appropriate level of difficulty. We propose a framework for distributing deep learning in which one set of workers search for the most informative examples in parallel while a single worker updates the model on examples selected by importance sampling. This leads the model to update using an unbiased estimate of the gradient which also has minimum variance when the sampling proposal is proportional to the L2-norm of the gradient. We show experimentally that this method reduces gradient variance even in a context where the cost of synchronization across machines cannot be ignored, and where the factors for importance sampling are not updated instantly across the training set.

研究动机与目标

解决分布式深度学习中的高通信开销和梯度方差问题，特别是在异步SGD设置下。
通过聚焦于信息量丰富的样本，减少对频繁同步和高带宽梯度传输的依赖。
提出一种理论基础扎实的方法，利用最优提议分布的重要性采样最小化梯度方差。
通过在多个工作节点上分发梯度范数的计算，同时保持收敛性保证，实现高效可扩展的训练。
探索将该方法与现有方法（如异步SGD）结合的可行性，以提升性能。

提出的方法

将每个样本的梯度范数计算分布到多个工作节点上，以识别最具信息量的训练样本。
由中央参数服务器基于单个梯度的L2-范数执行重要性采样，选择范数较高的样本。
采用提议分布与梯度L2-范数成比例的重要性采样方法，以最小化梯度估计的方差。
允许工作节点使用过时的梯度范数，同时仍保持更新的无偏性和低方差。
每个样本仅计算并传播一个浮点数（即重要性权重），而非完整梯度，从而降低通信开销。
使用加法平滑来稳定采样过程中的概率权重，尤其在存在过时值时。

实验结果

研究问题

RQ1当重要性权重基于过时的模型参数计算时，基于梯度范数的重要性采样是否仍能降低分布式SGD中的训练方差？
RQ2与标准异步SGD相比，所提方法在收敛速度和泛化能力方面表现如何？
RQ3通过重要性采样实现的通信成本降低，在分布式深度学习中在多大程度上提升了训练效率？
RQ4使用过时的梯度范数对重要性采样方案的性能和稳定性有何影响？
RQ5该方法能否有效集成到现有分布式训练框架（如异步SGD）中？

主要发现

即使重要性权重由过时的模型参数计算得出，所提方法仍能显著降低梯度方差。
在排列不变的SVHN数据集上的实验表明，该方法相比标准SGD收敛更快、训练损失更低，且在通信延迟下仍可观测到方差降低。
协方差矩阵的迹的平方根（梯度方差的代理指标）在重要性采样下始终更低，尤其在使用较小学习率和适当平滑时更为明显。
使用较小学习率配合加法平滑（+1.0）所获得的方差降低效果优于高学习率配合大平滑（+10.0），表明对超参数调优较为敏感。
该方法通过仅传输重要性权重（每个样本一个浮点数）而非完整梯度，显著降低了通信成本，使网络流量减少数个数量级。
即使在更新延迟的情况下，该方法仍保持有效性，表明其对分布式环境中延迟的鲁棒性，但性能依赖于对概率权重的恰当平滑。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。