QUICK REVIEW

[论文解读] Experiments on Parallel Training of Deep Neural Network using Model Averaging

Hang Su, Haoyu Chen|arXiv (Cornell University)|Jul 5, 2015

Neural Networks and Applications参考文献 14被引用 56

一句话总结

本文提出了一种基于多GPU和MPI的模型平均方法，用于深度神经网络的并行训练，实现了频繁的参数同步且通信开销极低。在300小时Switchboard数据集上，使用16块和32块GPU分别实现了9.3倍和17倍的加速，且准确率下降可忽略不计。实验表明，NG-SGD和RBM预训练显著提升了模型平均框架下的训练稳定性和收敛性。

ABSTRACT

In this work we apply model averaging to parallel training of deep neural network (DNN). Parallelization is done in a model averaging manner. Data is partitioned and distributed to different nodes for local model updates, and model averaging across nodes is done every few minibatches. We use multiple GPUs for data parallelization, and Message Passing Interface (MPI) for communication between nodes, which allows us to perform model averaging frequently without losing much time on communication. We investigate the effectiveness of Natural Gradient Stochastic Gradient Descent (NG-SGD) and Restricted Boltzmann Machine (RBM) pretraining for parallel training in model-averaging framework, and explore the best setups in term of different learning rate schedules, averaging frequencies and minibatch sizes. It is shown that NG-SGD and RBM pretraining benefits parameter-averaging based model training. On the 300h Switchboard dataset, a 9.3 times speedup is achieved using 16 GPUs and 17 times speedup using 32 GPUs with limited decoding accuracy loss.

研究动机与目标

研究基于多GPU的深度神经网络模型平均方法，实现高效并行训练。
评估NG-SGD和RBM预训练对基于模型平均的训练的影响。
在分布式环境下，确定学习率调度、小批量大小和平均频率的最优配置。
在保持模型准确率的同时，最小化分布式训练中的通信开销。
探索使用MPI和多GPU架构实现频繁模型平均以扩展深度神经网络训练的可行性。

提出的方法

将训练数据分发到多个GPU上，并在每个节点上执行本地SGD更新。
通过MPI实现节点间模型参数的模型平均，每几个小批量后同步一次，利用低延迟通信。
使用自然梯度随机梯度下降（NG-SGD）以提升平均过程中的收敛性和参数稳定性。
应用RBM预训练初始化网络权重，增强在并行训练设置下的泛化能力。
实现与训练节点数量成比例的学习率调度，以保持有效的参数更新。
通过MPI实现内存中的参数交换，避免平均过程中的数据I/O，从而支持频繁同步。

实验结果

研究问题

RQ1通过MPI实现频繁同步的模型平均是否能实现跨多GPU的有效且可扩展的DNN训练？
RQ2NG-SGD和RBM预训练在模型平均框架中如何影响收敛性和准确率？
RQ3在并行DNN训练中，平均频率、小批量大小和学习率调度之间应如何达到最优平衡？
RQ4频繁模型平均是否能在大规模DNN训练中实现高加速的同时保持高准确率？
RQ5在语音识别任务中，与现有方法相比，该方法在加速比和解码性能方面表现如何？

主要发现

使用16块GPU时，该方法在300小时Switchboard数据集上实现了9.3倍的加速，WER仅下降0.3–0.9个百分点。
使用32块GPU时，实现了17倍的加速，表明在模型平均框架下具有出色的可扩展性。
NG-SGD显著提升了训练稳定性和收敛性，在WER和加速比方面均优于标准SGD。
RBM预训练在结合模型平均时显著提升了模型性能，尤其在训练初期阶段。
平均频率为10个小批量时，WER为15.1（SWB），优于20个时的15.8，表明更频繁的平均能提升准确率。
指数型学习率调度与Newbob调度性能相当，尽管需要更多的超参数调优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。