QUICK REVIEW

[论文解读] Mixed-Precision Training for NLP and Speech Recognition with OpenSeq2Seq

Oleksii Kuchaiev, Boris Ginsburg|arXiv (Cornell University)|May 25, 2018

Topic Modeling参考文献 20被引用 41

一句话总结

OpenSeq2Seq 是一个基于 TensorFlow 的工具包，支持混合精度和分布式训练，用于 seq2seq 模型，在 NMT、ASR 和语音合成任务中实现 1.5-3x 的训练加速且不损失精度。

ABSTRACT

We present OpenSeq2Seq - a TensorFlow-based toolkit for training sequence-to-sequence models that features distributed and mixed-precision training. Benchmarks on machine translation and speech recognition tasks show that models built using OpenSeq2Seq give state-of-the-art performance at 1.5-3x less training time. OpenSeq2Seq currently provides building blocks for models that solve a wide range of tasks including neural machine translation, automatic speech recognition, and speech synthesis.

研究动机与目标

提供一个模块化、可扩展的基于 TensorFlow 的 seq2seq 模型工具包。
启用混合精度训练以在 Volta/Turing GPUs 上利用 Tensor Cores。
通过 Horovod 支持多 GPU/多节点的快速分布式训练。
展示在 MT 和 ASR 任务中以更短的训练时间达到的最先进性能。

提出的方法

引入模块化的核心类：DataLayer、Model、Encoder、Decoder、Loss。
实现混合精度训练，使用 FP16 计算和 FP32 主权重，以及损失缩放。
提供 MixedPrecisionOptimizerWrapper 来处理 FP16 梯度和 FP32 更新。
启用基于 Horovod 的分布式训练，实现可扩展的多 GPU/多节点执行。
提供可配置的模型模块，用于 GNMT、ConvS2S、Transformer、Deep Speech 2、Wave2Letter+、Tacotron 2 等等。
在 MT、ASR 和 TTS 任务上呈现性能基准。

实验结果

研究问题

RQ1混合精度训练是否能够在不牺牲准确性的情况下加速 seq2seq 模型训练？
RQ2OpenSeq2Seq 在 MT、ASR 和 TTS 任务上的性能和内存占用如何比较？
RQ3分布式训练（Horovod）对跨 GPU 和跨节点的扩展有何影响？
RQ4模块化架构在组合新的 seq2seq 模型方面的灵活性有多大？
RQ5在混合精度训练中为确保关键组件保持 FP32 精度，需要考虑哪些实际因素？

主要发现

混合精度训练在 MT、ASR 和 TTS 任务中降低了内存使用并实现了 1.5–3x 的训练加速。
损失缩放和 FP32 主权重在 FP16 的前向/反向传播中保持了精度。
Horovod 的分布式训练在跨 GPU 数量增多时显著优于 TensorFlow 原生的 towers 的扩展性，尤其是在较大 GPU 数量时。
GNMT、ConvS2S 和 Transformer 块可以混合搭配，形成具有竞争 BLEU 分数的多种 NMT 模型。
ASR 结果显示内存使用下降（约 57%）并在混合精度设置下获得显著的速度提升。
Tacotron 2 训练与混合精度相比 FP32 提高约 1.6x。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。