QUICK REVIEW

[论文解读] The Sockeye 2 Neural Machine Translation Toolkit at AMTA 2020

Tobias Domhan, Michael Denkowski|arXiv (Cornell University)|Aug 11, 2020

Natural Language Processing Techniques参考文献 38被引用 68

一句话总结

Sockeye 2 是一个基于 Gluon MXNet 的 NMT 工具包，通过最先进的 Transformer 模型、8-bit CPU 量化和混合精度训练，在研究和生产中加速训练和推理。

ABSTRACT

We present Sockeye 2, a modernized and streamlined version of the Sockeye neural machine translation (NMT) toolkit. New features include a simplified code base through the use of MXNet's Gluon API, a focus on state of the art model architectures, distributed mixed precision training, and efficient CPU decoding with 8-bit quantization. These improvements result in faster training and inference, higher automatic metric scores, and a shorter path from research to production.

研究动机与目标

介绍 Sockeye 2 作为一个简化的基于 MXNet Gluon 的 NMT 工具包。
展示模型架构、训练速度和推理效率方面的改进。
展示 CPU 解码的 8-bit 量化及其对延迟和 BLEU 的影响。
展示通过 Horovod 和 AMP 的训练提升。
提供关于 Transformer 变体、源因子及鲁棒性的实验证据。

提出的方法

采用 Gluon API 以简化代码并实现灵活的执行模式（eager 与 cached graphs）。
实验最先进的 Transformer 架构，包括深层编码器/解码器配置。
引入输入字符信息的源因子及多种嵌入组合，以提高对输入变化的鲁棒性。
实现 CPU 推理的 8-bit 量化，以在尽量少的 BLEU 损失下降低延迟。
集成 Horovod 进行分布式训练和 AMP 实现混合精度以扩展训练规模。
引入 plateau-reduce 学习计划以提高训练效率和最终模型质量。

实验结果

研究问题

RQ1与先前的 Sockeye 版本相比，Sockeye 2 在最先进的 Transformer 架构上的表现如何？
RQ2在不同配置中，8-bit CPU 量化对解码延迟和 BLEU 分数的影响是什么？
RQ3源因子是否能提升对大小写和拼写变体的鲁棒性？哪些嵌入策略效果最好？
RQ4基于 Horovod 的分布式训练和混合精度训练在大规模 NMT 模型上的效果如何？ plateau-reduce 调度相比于以前的调度如何？

主要发现

具有更深编码器和更浅解码器的 Transformer 变体在延迟显著降低的同时也能达到具有竞争力的 BLEU。
8-bit 量化显著降低 CPU 上非批量解码时间，BLEU 损失最小。
用于输入大小写信息的源因子提高对大小写变体的鲁棒性，在实验中某些因子策略表现最佳。
与报道基准中的 Ott et al. (2018) 设置相比，plateau-reduce 训练在更短的训练时间内获得了较强的 BLEU 分数。
启用 Horovod 的分布式训练并结合 AMP 可以提升训练效率，使有效批量大小更大且收敛更快。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。