QUICK REVIEW
[论文解读] Mixed-Precision Training for NLP and Speech Recognition with OpenSeq2Seq
Oleksii Kuchaiev, Boris Ginsburg|arXiv (Cornell University)|May 25, 2018
Topic Modeling参考文献 20被引用 41
一句话总结
OpenSeq2Seq 是一个基于 TensorFlow 的工具包,支持混合精度和分布式训练,用于 seq2seq 模型,在 NMT、ASR 和语音合成任务中实现 1.5-3x 的训练加速且不损失精度。
ABSTRACT
We present OpenSeq2Seq - a TensorFlow-based toolkit for training sequence-to-sequence models that features distributed and mixed-precision training. Benchmarks on machine translation and speech recognition tasks show that models built using OpenSeq2Seq give state-of-the-art performance at 1.5-3x less training time. OpenSeq2Seq currently provides building blocks for models that solve a wide range of tasks including neural machine translation, automatic speech recognition, and speech synthesis.
研究动机与目标
- 提供一个模块化、可扩展的基于 TensorFlow 的 seq2seq 模型工具包。
- 启用混合精度训练以在 Volta/Turing GPUs 上利用 Tensor Cores。
- 通过 Horovod 支持多 GPU/多节点的快速分布式训练。
- 展示在 MT 和 ASR 任务中以更短的训练时间达到的最先进性能。
提出的方法
- 引入模块化的核心类:DataLayer、Model、Encoder、Decoder、Loss。
- 实现混合精度训练,使用 FP16 计算和 FP32 主权重,以及损失缩放。
- 提供 MixedPrecisionOptimizerWrapper 来处理 FP16 梯度和 FP32 更新。
- 启用基于 Horovod 的分布式训练,实现可扩展的多 GPU/多节点执行。
- 提供可配置的模型模块,用于 GNMT、ConvS2S、Transformer、Deep Speech 2、Wave2Letter+、Tacotron 2 等等。
- 在 MT、ASR 和 TTS 任务上呈现性能基准。
实验结果
研究问题
- RQ1混合精度训练是否能够在不牺牲准确性的情况下加速 seq2seq 模型训练?
- RQ2OpenSeq2Seq 在 MT、ASR 和 TTS 任务上的性能和内存占用如何比较?
- RQ3分布式训练(Horovod)对跨 GPU 和跨节点的扩展有何影响?
- RQ4模块化架构在组合新的 seq2seq 模型方面的灵活性有多大?
- RQ5在混合精度训练中为确保关键组件保持 FP32 精度,需要考虑哪些实际因素?
主要发现
- 混合精度训练在 MT、ASR 和 TTS 任务中降低了内存使用并实现了 1.5–3x 的训练加速。
- 损失缩放和 FP32 主权重在 FP16 的前向/反向传播中保持了精度。
- Horovod 的分布式训练在跨 GPU 数量增多时显著优于 TensorFlow 原生的 towers 的扩展性,尤其是在较大 GPU 数量时。
- GNMT、ConvS2S 和 Transformer 块可以混合搭配,形成具有竞争 BLEU 分数的多种 NMT 模型。
- ASR 结果显示内存使用下降(约 57%)并在混合精度设置下获得显著的速度提升。
- Tacotron 2 训练与混合精度相比 FP32 提高约 1.6x。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。