QUICK REVIEW

[论文解读] Neural Machine Translation with Pivot Languages

Yong Cheng, Yang Liu|arXiv (Cornell University)|Nov 15, 2016

Natural Language Processing Techniques参考文献 15被引用 30

一句话总结

本文提出通过共享嵌入或似然度最大化，将源语言到枢轴语言和枢轴语言到目标语言的模型通过联合训练连接起来，实现基于枢轴的神经机器翻译，显著提升了欧委会语料库和WMT数据集上低资源语言对的翻译质量，相比之前的方法最高提升+4.32 BLEU。

ABSTRACT

While recent neural machine translation approaches have delivered state-of-the-art performance for resource-rich language pairs, they suffer from the data scarcity problem for resource-scarce language pairs. Although this problem can be alleviated by exploiting a pivot language to bridge the source and target languages, the source-to-pivot and pivot-to-target translation models are usually independently trained. In this work, we introduce a joint training algorithm for pivot-based neural machine translation. We propose three methods to connect the two models and enable them to interact with each other during training. Experiments on Europarl and WMT corpora show that joint training of source-to-pivot and pivot-to-target models leads to significant improvements over independent training across various languages.

研究动机与目标

解决低资源语言对神经机器翻译中的数据稀缺问题。
通过在训练过程中对齐源语言到枢轴语言和枢轴语言到目标语言的模型，减少基于枢轴翻译中的误差传播。
通过联合训练源语言到枢轴语言和枢轴语言到目标语言的神经机器翻译模型，而非独立训练，以提升翻译质量。
探索有效的两模型间连接机制，以增强级联翻译性能。
通过使用小规模源-目标平行语料库指导模型对齐，证明联合训练的有效性。

提出的方法

提出三种连接方法：在枢轴语言上共享词嵌入、基于注意力的交互，以及级联翻译的似然度最大化。
使用小规模源-目标平行语料库，通过似然度连接联合训练源语言到枢轴语言和枢轴语言到目标语言的模型。
通过枢轴语言中间表示，最大化给定源句子的目标句子对数似然度。
将枢轴模型的隐藏状态整合到目标模型的注意力机制中，以实现跨模型交互。
通过共享优化目标端到端联合训练两个模型，以减少分布差异。
在多个语言对（如西班牙语-英语、英语-法语）上，对欧委会语料库和WMT语料库均应用联合训练。

实验结果

研究问题

RQ1联合训练源语言到枢轴语言和枢轴语言到目标语言的神经机器翻译模型是否能减少级联翻译中的误差传播？
RQ2通过共享嵌入或似然度最大化连接两个模型，是否能提升低资源语言对的翻译质量？
RQ3桥梁式源-目标平行语料库的大小如何影响联合训练的性能？
RQ4联合训练是否能超越独立训练以及现有的多语言或迁移学习基线方法？
RQ5在共享嵌入、注意力交互和似然度最大化三种连接机制中，哪一种能取得最佳性能？

主要发现

在WMT语料库上，通过似然度连接的联合训练在多个语言对上将翻译性能提升最高达+1.18 BLEU。
似然度连接方法在欧委会和WMT数据集上均优于独立训练及其他连接机制，表现最佳。
即使使用小规模桥梁语料库（1,000对句子），也能带来可测量的性能提升，且当语料库超过50,000对后，提升幅度趋于平缓。
尽管使用的并行训练语料库更小，该方法相比Firat等人提出的多语言NMT模型，仍实现了最高+4.32 BLEU的性能提升。
联合训练显著缩小了独立模型之间的性能差距，并在低资源环境下提升了鲁棒性。
结果证实，训练期间的模型交互可有效缓解误差传播，提升级联翻译质量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。