[论文解读] The Missing Ingredient in Zero-Shot Neural Machine Translation
该论文识别出在多语言 NMT 中纯参数共享会阻碍有效的零-shot 翻译,并提出在编码器层引入辅助损失以强制语言不变表示,在 WMT14 上实现与枢轴方法同等的零-shot 性能,在 IWSLT17 上获得可扩展的结果。
Multilingual Neural Machine Translation (NMT) models are capable of translating between multiple source and target languages. Despite various approaches to train such models, they have difficulty with zero-shot translation: translating between language pairs that were not together seen during training. In this paper we first diagnose why state-of-the-art multilingual NMT models that rely purely on parameter sharing, fail to generalize to unseen language pairs. We then propose auxiliary losses on the NMT encoder that impose representational invariance across languages. Our simple approach vastly improves zero-shot translation quality without regressing on supervised directions. For the first time, on WMT14 English-FrenchGerman, we achieve zero-shot performance that is on par with pivoting. We also demonstrate the easy scalability of our approach to multiple languages on the IWSLT 2017 shared task.
研究动机与目标
- 通过诊断在完全参数共享的多语言 NMT 下为何零-shot 翻译效果不佳来激励研究。
- 提出并评估辅助损失以强制语言不变的编码器表示。
- 在基准数据集上证明零-shot 性能达到与枢轴方法在多阶段数据合成上等效的水平。
- 展示该方法对更多语言(IWSLT17)的可扩展性。
- 阐明跨语言迁移在实现更好零-shot MT 中的缺失要素作用。
提出的方法
- 将零-shot 翻译表述为一个领域自适应问题,以英语作为源领域,其他语言作为目标领域。
- 在标准交叉熵翻译损失(损失=CE + lambda * Omega)上加入对齐正则化损失。
- 提供两类正则化器:(a)通过领域对抗损失进行分布层面的对齐;(b)利用已知翻译对(平行语料)并带有余弦相似度目标的实例级对齐。
- 使用共享的编码器/解码器 Transformer 基础模型,并带有指示目标语言的语言标记;端到端训练。
- 在实验中将 lambda 调整以平衡翻译和对齐损失(lambda = 1.0)。
- 比较基于余弦的对齐与对抗对齐在鲁棒性和性能方面的差异;强调余弦损失的简洁性。
实验结果
研究问题
- RQ1为何带权重绑定的多语言 NMT 模型难以推广到零-shot 语言对?
- RQ2是否通过显式对齐不同语言的编码器表示可以在不损害有监督方向的情况下改善零-shot 翻译?
- RQ3在多语言 NMT 的潜在空间中,英语是否是一个实际可行的枢轴?
- RQ4简单的对齐损失与对抗方法在改善零-shot MT方面有何差异,且该方法对更多语言的可扩展性如何?
主要发现
- 基线的多语言 NMT 显示出强烈的有监督性能,但与枢轴方法相比,零-shot 性能较弱,存在显著的语言纠缠和输出被翻译成错误语言的错误。
- de->fr 的零-shot BLEU 从 17.00( Vanilla) 提高到 26.00(对抗)和 25.85(Pool-Cosine);fr->de 的零-shot 从 11.84( Vanilla) 提高到 20.39(对抗)和 20.18(Pool-Cosine) 。
- 通过英语的枢轴使 BLEU 得分达到 26.25(de->fr)和 20.18(fr->de),表明对齐的潜在表示可以缩小与枢轴的差距。
- 基于余弦的对齐是一种简单、鲁棒的方法,几乎可与对抗方法匹敌,超参更少,敏感性更低。
- 在 IWSLT17 上,余弦对齐的多语言模型达到与枢轴方法相当的水平,并显示出对更多语言(8–20 语言配置)的可扩展性,零-shot 结果接近或达到枢轴性能。
- 对齐损失有效地将源语言表示与目标语言信号解耦,从而在不削弱有监督方向的前提下实现更好的零-shot 泛化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。