QUICK REVIEW

[论文解读] Very Deep Transformers for Neural Machine Translation

Xiaodong Liu, Kevin Duh|arXiv (Cornell University)|Aug 18, 2020

Natural Language Processing Techniques参考文献 35被引用 71

一句话总结

论文证明标准 Transformer 可以在很深的深度下训练（最多60层编码器和12层解码器），使用 ADMIN 初始化，在 WMT’14 EN-FR 和 EN-DE 上实现高达2.5 BLEU 的提升，并在是否使用回译的情况下达到新的 state-of-the-art。

ABSTRACT

We explore the application of very deep Transformer models for Neural Machine Translation (NMT). Using a simple yet effective initialization technique that stabilizes training, we show that it is feasible to build standard Transformer-based models with up to 60 encoder layers and 12 decoder layers. These deep models outperform their baseline 6-layer counterparts by as much as 2.5 BLEU, and achieve new state-of-the-art benchmark results on WMT14 English-French (43.8 BLEU and 46.4 BLEU with back-translation) and WMT14 English-German (30.1 BLEU).The code and trained models will be publicly available at: https://github.com/namisan/exdeep-nmt.

研究动机与目标

调查更深的 Transformer 架构是否能提升 NMT 性能。
开发稳定的训练初始化，以在不改变结构的情况下使非常深的模型可训练。
在标准的 WMT’14 EN-FR 和 EN-DE 基准上评估深度效应（含/不含回译）。
提供可重复的结果并发布代码/模型以促进进一步研究。

提出的方法

在深层 Transformer 块中应用 ADMIN 初始化，以平衡残差路径和前馈路径。
使用分析阶段来估计每层的残差方差并设置层缩放因子 ω_i。
在单 GPU 友好约束下，训练标准的后 LN Transformer 架构，编码器最多60层，解码器12层。
将深度 ADMIN 模型与标准的 6L-6L 基线在 BLEU、TER 和 METEOR 指标上进行比较。
进行跨编码器/解码器深度和网络宽度的消融研究。
在 WMT’14 EN-FR 上评估深模型的回译效果。

实验结果

研究问题

RQ1是否可以使用有原则的初始化，在非常深的深度下有效训练标准 Transformer 架构？
RQ2深度是否在跨语言对（EN-FR、EN-DE）和评估指标上为 NMT 质量带来持续增益？
RQ3深度对学习动态（如训练困惑度和梯度行为）的影响是什么？
RQ4更深的模型是否能改进对低频词和长句的翻译？
RQ5回译数据是否像较浅模型一样继续使非常深的模型受益？

主要发现

模型	数据集	数据集大小（参数）	T↓	M↑	BLEU↑	Δ
6L-6L Default	FR	67M	42.2	60.5	41.3	-
6L-6L ADMIN	FR	67M	41.8	60.7	41.5	0.2
60L-12L Default	FR	262M	diverge	-	-	-
60L-12L ADMIN	FR	262M	40.3	62.4	43.8	2.5
6L-6L Default	DE	61M	54.4	46.6	27.6	-
6L-6L ADMIN	DE	61M	54.1	46.7	27.7	0.1
60L-12L Default	DE	256M	diverge	-	-	-
60L-12L ADMIN	DE	256M	51.8	48.3	30.1	2.5

60L 编码器搭配 12L 解码器（60L-12L ADMIN）在 EN-FR 和 EN-DE 上相对于 6L-6L 基线实现高达 2.5 BLEU 的增益。
60L-12L ADMIN 的 BLEU 分别为 FR 43.8 和 DE 30.1，相较于 6L-6L 默认，提升具有统计学显著性（p<0.05）。
60L-12L ADMIN 还在 TER 和 METEOR 上有改进（例如 FR TER 40.3 vs 42.2；METEOR 62.4 vs 60.5）。
Pre-LN 变体在训练上可行但不及后 LN ADMIN 深层模型；深层后-LN ADMIN 模型在两个基准上达到最先进水平。
消融研究显示在相同总深度下，编码器越深越有利于 BLEU；60L-12L、48L-12L、36L-36L 在统计上并列为最佳 BLEU。
使用 ADMIN 模型的回译进一步提升 EN-FR BLEU，分别达到 46.4（36L-12L-768D ADMIN + BT）和 46.0（60L-12L ADMIN + BT）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。