QUICK REVIEW

[论文解读] Universal Neural Machine Translation for Extremely Low Resource Languages

Jiatao Gu, Hany Hassan|arXiv (Cornell University)|Feb 15, 2018

Natural Language Processing Techniques参考文献 24被引用 47

一句话总结

本文提出 Universal Lexical Representation (ULR) 和 Mixture of Language Experts (MoLE)，实现跨多语言的迁移学习，在极少资源对的语言对上使用极小的平行语料和零-shot 转移，取得强劲的 BLEU 增益。

ABSTRACT

In this paper, we propose a new universal machine translation approach focusing on languages with a limited amount of parallel data. Our proposed approach utilizes a transfer-learning approach to share lexical and sentence level representations across multiple source languages into one target language. The lexical part is shared through a Universal Lexical Representation to support multilingual word-level sharing. The sentence-level sharing is represented by a model of experts from all source languages that share the source encoders with all other languages. This enables the low-resource language to utilize the lexical and sentence representations of the higher resource languages. Our approach is able to achieve 23 BLEU on Romanian-English WMT2016 using a tiny parallel corpus of 6k sentences, compared to the 18 BLEU of strong baseline system which uses multilingual training and back-translation. Furthermore, we show that the proposed approach can achieve almost 20 BLEU on the same dataset through fine-tuning a pre-trained multi-lingual system in a zero-shot setting.

研究动机与目标

激发并解决具备极少平行数据语言的翻译问题。
发展跨语言的词汇级和句子级共享，以提升低资源翻译。
在近乎零资源语言对上评估一个通用 NMT 框架，并与多语言基线进行比较。
展示回译和微调在超低资源场景中的优势。

提出的方法

引入 Universal Lexical Representation (ULR)，使用可训练的嵌入矩阵 E^U 和一个投影，将来自任意语言的词映射到共享的通用标记空间，并对齐语言特定嵌入与通用标记。
定义一个离散的通用标记空间（主要是英语），并学习一个共享变换 A，以计算 q(u|x) ，将源词 x 在通用标记之间分布。
对常见词，使用语言特定嵌入与通用标记混合之间的学习插值（alpha/beta 方案）。
在编码器之后提出语言专家混合（MoLE），以建模句子级变异，每个辅助语言一个专家，并有一个门控网络来选择专家，使用语言门控目标训练。
在多语言 NMT 框架中训练，利用辅助的高资源语言来帮助极低资源对，并可选地对极小数据集应用回译（BT）和微调。

实验结果

研究问题

RQ1在平行数据稀缺的情况下，通用词汇表征是否能实现跨语言的有效共享？
RQ2语言专家混合是否能改善低资源语言的句子级共享和翻译质量？
RQ3ULR 与 MoLE 如何与回译和微调互动以缩小与高资源数据之间的差距？
RQ4辅助语言及语言家族相关性对零资源翻译性能的影响是？
RQ5微调预训练的多语言模型是否能为超低资源语言对带来显著提升？

主要发现

ULR 结合 MoLE 在 Ro-En、Lv-En 和 Ko-En 的多语言 NMT 基线之上提供了叠加的改进，且在平行数据极其有限的情形下仍然有效。
在 Ro-En 的 6k 平行句子情形下，ULR+MoLE+BT 相较基线 BLEU 提升多达 7.98，结合 BT 可达 22.92，而满量数据的 NMT 为 28.34。
ULR 通过将未见词投影到通用标记空间，改进对未知词的处理，减轻零资源设置下的词汇缺口。
MoLE 的激活反映语言相关性；Ro 受罗曼语族影响，Lv 受俄语影响，MoLE 倾向在上下文中选择合适的专家。
用超低资源数据对预训练的多语言模型进行微调，可以实现显著的 BLEU 增益， Ro-En 在数个 epoch 后接近 ~20 BLEU。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。