QUICK REVIEW

[论文解读] Learning Deep Transformer Models for Machine Translation

Qiang Wang, Bei Li|arXiv (Cornell University)|Jun 5, 2019

Natural Language Processing Techniques参考文献 35被引用 96

一句话总结

本论文表明，真正的深度 Transformer 编码器通过使用前归一化（pre-norm）体系结构和层的动态线性组合（DLCL）可超越 Transformer-Big，在更小体积和更快速度的同时实现高达0.4–2.4 BLEU 的增益。

ABSTRACT

Transformer is the state-of-the-art model in recent machine translation evaluations. Two strands of research are promising to improve models of this kind: the first uses wide networks (a.k.a. Transformer-Big) and has been the de facto standard for the development of the Transformer system, and the other uses deeper language representation but faces the difficulty arising from learning deep networks. Here, we continue the line of research on the latter. We claim that a truly deep Transformer model can surpass the Transformer-Big counterpart by 1) proper use of layer normalization and 2) a novel way of passing the combination of previous layers to the next. On WMT'16 English- German, NIST OpenMT'12 Chinese-English and larger WMT'18 Chinese-English tasks, our deep system (30/25-layer encoder) outperforms the shallow Transformer-Big/Base baseline (6-layer encoder) by 0.4-2.4 BLEU points. As another bonus, the deep model is 1.6X smaller in size and 3X faster in training than Transformer-Big.

研究动机与目标

研究更深的 Transformer 编码器是否能在机器翻译中超越标准的 Transformer-Big/Base 基线。
识别能使非常深的 Transformer 编码器得以训练的优化策略。
开发一种机制，以重新利用所有前置层的信息来提升深层表示。
在多种机器翻译基准（En-De、Zh-En-U 变体）上评估含 DLCL 的深层 Transformer。

提出的方法

研究 Transformer 中的两种残差变体（后归一化 post-norm 和前归一化 pre-norm）及它们对深层网络的影响。
引入层的动态线性组合（DLCL），用可学习权重融合所有先前层的输出。
用前归一化 DLCL 训练极深的编码器（高达30层），并与 Transformer-Big/Base 及后归一化变体进行比较。
提供消融研究以评估层归一化和可学习融合权重的重要性。
在 WMT En-De、NIST Zh-En-Small 和 WMT Zh-En-Large 上，使用 BPE 词汇表和束搜索进行评估。
报道训练/推理效率及模型大小的比较。

实验结果

研究问题

RQ1在得到恰当优化时，更深的 Transformer 编码器是否能超越 Transformer-Big？
RQ2前归一化（相对于后归一化）是否有助于优化和训练极深的 Transformer？
RQ3DLCL 是否比标准残差连接提供更好的信息流与对早期层的利用？
RQ4在不同机器翻译任务中，深度与训练成本、模型大小和推理速度之间有哪些权衡？

主要发现

采用前归一化和 DLCL 的深层编码器（30 层）在 BLEU 上相对 Transformer-Base 提升0.4–2.4，在若干任务中甚至比 Transformer-Big 高出0.4–0.6 BLEU。
使用前归一化的深层模型更易于优化，且可训练到比后归一化变体更深的深度（例如20层或30层编码器）。
DLCL 使所有前置层表示的动态端到端加权成为可能，优于固定残差和密集连接方案。
基于 DLCL 的模型比 Transformer-Big 参数减少约1.6倍，训练速度提高约3倍，在某些配置下推理速度快约10%。
在 En-De、Zh-En-Small 和 Zh-En-Large 上，深层 DLCL 模型在不同规模数据集上达到或超过 Transformer-Big 的性能。
消融实验显示移除层归一化或使用固定权重会降低性能，突显可学习、归一化的层融合的重要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。