Skip to main content
QUICK REVIEW

[论文解读] Parallel training of Deep Neural Networks with Natural Gradient and Parameter Averaging

Daniel Povey, Xiaohui Zhang|arXiv (Cornell University)|Jan 1, 2014
Neural Networks and Applications参考文献 28被引用 105
一句话总结

本文提出了一种与硬件无关的框架,用于在多个GPU或多核机器上使用周期性参数平均和自然梯度的高效近似方法(NG-SGD)进行深度神经网络(DNN)的训练。该方法实现了可扩展的、低通信量的分布式训练,在单机上显著提升了收敛速度,并在多节点环境中保持了良好的性能。

ABSTRACT

We describe the neural-network training framework used in the Kaldi speech recognition toolkit, which is geared towards training DNNs with large amounts of training data using multiple GPU-equipped or multicore machines. In order to be as hardwareagnostic as possible, we needed a way to use multiple machines without generating excessive network traffic. Our method is to average the neural network parameters periodically (typically every minute or two), and redistribute the averaged parameters to the machines for further training. Each machine sees different data. By itself, this method does not work very well. However, we have another method, an approximate and efficient implementation of Natural Gradient for Stochastic Gradient Descent (NG-SGD), which seems to allow our periodic-averaging method to work well, as well as substantially improving the convergence of SGD on a single machine.

研究动机与目标

  • 解决在多台机器上扩展深度神经网络训练时,网络开销最小化的挑战。
  • 开发一种与硬件无关的分布式训练方法,适用于大规模语音识别工作负载。
  • 在单机和分布式环境中,提升随机梯度下降(SGD)的收敛速度和稳定性。
  • 在不产生过高通信成本的前提下,实现分布式工作者之间的有效参数同步。

提出的方法

  • 每隔1–2分钟在多台训练机器之间周期性地平均模型参数,以同步更新。
  • 将平均后的参数重新分发给所有工作者,以保持分布式系统中的一致性。
  • 引入一种高效、近似的自然梯度实现方法,用于随机梯度下降(NG-SGD),以稳定并加速训练。
  • 利用NG-SGD近似方法,提升单机上的收敛速度,并增强在分布式设置中参数平均的有效性。
  • 确保即使每台机器在不同数据子集上训练,该方法依然有效。
  • 设计该框架为与硬件无关,最大限度减少对特定网络拓扑或通信模式的依赖。

实验结果

研究问题

  • RQ1周期性参数平均是否能在最小通信开销下实现DNN的有效分布式训练?
  • RQ2近似自然梯度方法在单机和分布式训练中如何改善收敛性?
  • RQ3参数平均与NG-SGD的结合在分布式环境中相比标准SGD能多大程度上实现性能提升?
  • RQ4该框架在扩展至多台配备GPU或多核的机器时,能否保持性能和稳定性?
  • RQ5通信频率(例如每1–2分钟)对训练稳定性和收敛性有何影响?

主要发现

  • 周期性参数平均与近似NG-SGD的结合,能够在多台机器上实现稳定且高效的分布式训练。
  • 近似NG-SGD方法在单机训练中相比标准SGD,显著提升了收敛速度和稳定性。
  • 仅使用参数平均无法获得良好结果,但与NG-SGD近似方法结合后,效果显著提升。
  • 该框架具有高度可扩展性,且网络流量极少,适用于异构或大规模硬件集群。
  • 该方法对数据在机器间的分片具有鲁棒性,各工作者在不同数据上训练,同时通过平均保持模型一致性。
  • 该方法与硬件无关,可在多样化的计算环境中部署,且不会导致性能下降。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。