Skip to main content
QUICK REVIEW

[论文解读] Mixed-Precision Training for NLP and Speech Recognition with OpenSeq2Seq

Oleksii Kuchaiev, Boris Ginsburg|arXiv (Cornell University)|May 25, 2018
Topic Modeling参考文献 20被引用 41
一句话总结

OpenSeq2Seq 是一个基于 TensorFlow 的工具包,支持混合精度和分布式训练,用于 seq2seq 模型,在 NMT、ASR 和语音合成任务中实现 1.5-3x 的训练加速且不损失精度。

ABSTRACT

We present OpenSeq2Seq - a TensorFlow-based toolkit for training sequence-to-sequence models that features distributed and mixed-precision training. Benchmarks on machine translation and speech recognition tasks show that models built using OpenSeq2Seq give state-of-the-art performance at 1.5-3x less training time. OpenSeq2Seq currently provides building blocks for models that solve a wide range of tasks including neural machine translation, automatic speech recognition, and speech synthesis.

研究动机与目标

  • 提供一个模块化、可扩展的基于 TensorFlow 的 seq2seq 模型工具包。
  • 启用混合精度训练以在 Volta/Turing GPUs 上利用 Tensor Cores。
  • 通过 Horovod 支持多 GPU/多节点的快速分布式训练。
  • 展示在 MT 和 ASR 任务中以更短的训练时间达到的最先进性能。

提出的方法

  • 引入模块化的核心类:DataLayer、Model、Encoder、Decoder、Loss。
  • 实现混合精度训练,使用 FP16 计算和 FP32 主权重,以及损失缩放。
  • 提供 MixedPrecisionOptimizerWrapper 来处理 FP16 梯度和 FP32 更新。
  • 启用基于 Horovod 的分布式训练,实现可扩展的多 GPU/多节点执行。
  • 提供可配置的模型模块,用于 GNMT、ConvS2S、Transformer、Deep Speech 2、Wave2Letter+、Tacotron 2 等等。
  • 在 MT、ASR 和 TTS 任务上呈现性能基准。

实验结果

研究问题

  • RQ1混合精度训练是否能够在不牺牲准确性的情况下加速 seq2seq 模型训练?
  • RQ2OpenSeq2Seq 在 MT、ASR 和 TTS 任务上的性能和内存占用如何比较?
  • RQ3分布式训练(Horovod)对跨 GPU 和跨节点的扩展有何影响?
  • RQ4模块化架构在组合新的 seq2seq 模型方面的灵活性有多大?
  • RQ5在混合精度训练中为确保关键组件保持 FP32 精度,需要考虑哪些实际因素?

主要发现

  • 混合精度训练在 MT、ASR 和 TTS 任务中降低了内存使用并实现了 1.5–3x 的训练加速。
  • 损失缩放和 FP32 主权重在 FP16 的前向/反向传播中保持了精度。
  • Horovod 的分布式训练在跨 GPU 数量增多时显著优于 TensorFlow 原生的 towers 的扩展性,尤其是在较大 GPU 数量时。
  • GNMT、ConvS2S 和 Transformer 块可以混合搭配,形成具有竞争 BLEU 分数的多种 NMT 模型。
  • ASR 结果显示内存使用下降(约 57%)并在混合精度设置下获得显著的速度提升。
  • Tacotron 2 训练与混合精度相比 FP32 提高约 1.6x。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。