[论文解读] Universal Neural Machine Translation for Extremely Low Resource Languages
本文提出 Universal Lexical Representation (ULR) 和 Mixture of Language Experts (MoLE),实现跨多语言的迁移学习,在极少资源对的语言对上使用极小的平行语料和零-shot 转移,取得强劲的 BLEU 增益。
In this paper, we propose a new universal machine translation approach focusing on languages with a limited amount of parallel data. Our proposed approach utilizes a transfer-learning approach to share lexical and sentence level representations across multiple source languages into one target language. The lexical part is shared through a Universal Lexical Representation to support multilingual word-level sharing. The sentence-level sharing is represented by a model of experts from all source languages that share the source encoders with all other languages. This enables the low-resource language to utilize the lexical and sentence representations of the higher resource languages. Our approach is able to achieve 23 BLEU on Romanian-English WMT2016 using a tiny parallel corpus of 6k sentences, compared to the 18 BLEU of strong baseline system which uses multilingual training and back-translation. Furthermore, we show that the proposed approach can achieve almost 20 BLEU on the same dataset through fine-tuning a pre-trained multi-lingual system in a zero-shot setting.
研究动机与目标
- 激发并解决具备极少平行数据语言的翻译问题。
- 发展跨语言的词汇级和句子级共享,以提升低资源翻译。
- 在近乎零资源语言对上评估一个通用 NMT 框架,并与多语言基线进行比较。
- 展示回译和微调在超低资源场景中的优势。
提出的方法
- 引入 Universal Lexical Representation (ULR),使用可训练的嵌入矩阵 E^U 和一个投影,将来自任意语言的词映射到共享的通用标记空间,并对齐语言特定嵌入与通用标记。
- 定义一个离散的通用标记空间(主要是英语),并学习一个共享变换 A,以计算 q(u|x) ,将源词 x 在通用标记之间分布。
- 对常见词,使用语言特定嵌入与通用标记混合之间的学习插值(alpha/beta 方案)。
- 在编码器之后提出语言专家混合(MoLE),以建模句子级变异,每个辅助语言一个专家,并有一个门控网络来选择专家,使用语言门控目标训练。
- 在多语言 NMT 框架中训练,利用辅助的高资源语言来帮助极低资源对,并可选地对极小数据集应用回译(BT)和微调。
实验结果
研究问题
- RQ1在平行数据稀缺的情况下,通用词汇表征是否能实现跨语言的有效共享?
- RQ2语言专家混合是否能改善低资源语言的句子级共享和翻译质量?
- RQ3ULR 与 MoLE 如何与回译和微调互动以缩小与高资源数据之间的差距?
- RQ4辅助语言及语言家族相关性对零资源翻译性能的影响是?
- RQ5微调预训练的多语言模型是否能为超低资源语言对带来显著提升?
主要发现
- ULR 结合 MoLE 在 Ro-En、Lv-En 和 Ko-En 的多语言 NMT 基线之上提供了叠加的改进,且在平行数据极其有限的情形下仍然有效。
- 在 Ro-En 的 6k 平行句子情形下,ULR+MoLE+BT 相较基线 BLEU 提升多达 7.98,结合 BT 可达 22.92,而满量数据的 NMT 为 28.34。
- ULR 通过将未见词投影到通用标记空间,改进对未知词的处理,减轻零资源设置下的词汇缺口。
- MoLE 的激活反映语言相关性;Ro 受罗曼语族影响,Lv 受俄语影响,MoLE 倾向在上下文中选择合适的专家。
- 用超低资源数据对预训练的多语言模型进行微调,可以实现显著的 BLEU 增益, Ro-En 在数个 epoch 后接近 ~20 BLEU。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。