QUICK REVIEW

[论文解读] Incorporating BERT into Neural Machine Translation

Jinhua Zhu, Yingce Xia|arXiv (Cornell University)|Feb 17, 2020

Topic Modeling参考文献 31被引用 173

一句话总结

提出一个将 BERT 表征注入 Transformer 基于的 NMT 系统所有编码器/解码器层的 BERT 融合模型，通过注意力，在多项基准的数据集上在有监督、半监督和无监督 MT 任务上实现了最先进的结果。

ABSTRACT

The recently proposed BERT has shown great power on a variety of natural language understanding tasks, such as text classification, reading comprehension, etc. However, how to effectively apply BERT to neural machine translation (NMT) lacks enough exploration. While BERT is more commonly used as fine-tuning instead of contextual embedding for downstream language understanding tasks, in NMT, our preliminary exploration of using BERT as contextual embedding is better than using for fine-tuning. This motivates us to think how to better leverage BERT for NMT along this direction. We propose a new algorithm named BERT-fused model, in which we first use BERT to extract representations for an input sequence, and then the representations are fused with each layer of the encoder and decoder of the NMT model through attention mechanisms. We conduct experiments on supervised (including sentence-level and document-level translations), semi-supervised and unsupervised machine translation, and achieve state-of-the-art results on seven benchmark datasets. Our code is available at \url{https://github.com/bert-nmt/bert-nmt}.

研究动机与目标

利用 BERT 进行神经机器翻译而无需从头训练 BERT 的动机。
开发一个将 BERT 表征通过注意力连接到所有 NMT 层的 BERT 融合模型。
在低资源和高资源设置下提升翻译质量，涵盖文档级和半监督情景。
在多种语言对和 MT 范式（有监督、半监督、无监督）上评估该方法。

提出的方法

对输入序列获取 BERT 表征，并通过双重注意力机制（BERT 编码器注意力和 BERT 解码器注意力）与每个编码器/解码器层进行融合。
用两路注意力方案计算融合层表征，结合标准 NMT 注意力与 BERT 派生注意力。
引入 drop-net 正则化，在训练过程中鼓励 BERT 和 NMT 特征的平衡使用。
分阶段训练：先进行 NMT 预训练，然后在冻结 BERT 并加入 BERT 融合组件的前提下用已训练的 NMT 进行初始化。
通过将前文上下文句子拼接到 BERT 表征中来应用文档级输入，以提升翻译连贯性。
在有监督、半监督（基于回译）和无监督 MT 设置下使用 BLEU 进行评估。

实验结果

研究问题

RQ1当通过注意力将已预训练的 BERT 表征融入所有 NMT 层时，是否能在语言对之间提升翻译质量？
RQ2将 BERT 作为上下文嵌入使用，是否优于仅用 BERT 初始化 NMT 或仅将 BERT 作为输入嵌入的做法？
RQ3BERT 融合方法在低资源与高资源设置中的表现如何，包括文档级和半监督情景？
RQ4drop-net 正则化对泛化能力和性能的影响？
RQ5该方法是否能在无监督 MT 任务中取得最先进的结果？

主要发现

BERT 融合模型在所测试的所有 IWSLT 与 WMT 任务中均优于标准 Transformer 基线，在若干语言对上 BLEU 增益约为 1.5 到 2.8。
在 IWSLT’14 De→En 上，该方法创下新的 BLEU 36.11 记录，超越了先前结果。
在 WMT’14 En→De 与 En→Fr 上，BLEU 分别达到 30.75 和 43.78，优于基线和若干当代模型。
在半监督 Ro→En 设置中，该方法达到 39.10 BLEU，超过 XLM 与先前的回译基线。
在无监督 En↔Fr 与 En↔Ro 翻译中，该方法取得最先进的 BLEU 分数（四个任务分别为 38.27/35.62/36.02/33.20）。
使用 BERT 融合的文档级翻译将 De→En 的 BLEU 提升至 36.69，进一步证明了跨句上下文的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。