[论文解读] Cross-lingual Language Model Pretraining
本论文提出跨语言语言模型(XLM),通过无监督(CLM/MLM)和有监督(TLM)预训练来学习多语言表示,在跨语言分类以及无监督和有监督机器翻译方面达到最先进的结果。
Recent studies have demonstrated the efficiency of generative pretraining for English natural language understanding. In this work, we extend this approach to multiple languages and show the effectiveness of cross-lingual pretraining. We propose two methods to learn cross-lingual language models (XLMs): one unsupervised that only relies on monolingual data, and one supervised that leverages parallel data with a new cross-lingual language model objective. We obtain state-of-the-art results on cross-lingual classification, unsupervised and supervised machine translation. On XNLI, our approach pushes the state of the art by an absolute gain of 4.9% accuracy. On unsupervised machine translation, we obtain 34.3 BLEU on WMT'16 German-English, improving the previous state of the art by more than 9 BLEU. On supervised machine translation, we obtain a new state of the art of 38.5 BLEU on WMT'16 Romanian-English, outperforming the previous best approach by more than 4 BLEU. Our code and pretrained models will be made publicly available.
研究动机与目标
- 证明跨语言预训练能提升多语言句子表示。
- 提出面向单语数据的无监督跨语言目标(CLM、MLM)。
- 引入利用并行数据的有监督跨语言目标(TLM)。
- 在 XNLI、无监督 MT 和有监督 MT 上展示最先进的性能。
- 强调对低资源语言和跨语言嵌入的益处。
提出的方法
- 在 N 种语言之间使用通过字节对编码学习的共享子词表。
- 使用 CLM 对单语数据进行 Transformer 语言模型训练,以从前文预测一个词。
- 通过对 15% 的标记进行掩码并结合上下文进行预测来训练 MLM,且每个批次包含多句话的流式处理。
- 引入 Translation Language Modeling (TLM),将并行句子拼接并掩码标记,使模型能够同时关注源语言和目标语言的上下文以对齐表示。
- 在跨语言分类任务上对预训练的 XLM 进行微调,通过在第一隐藏状态上加一个线性分类器并在英文 NLI 数据上训练,同时在 15 种语言上评估。
- 通过以不同的预训练方案(EMB、CLM、MLM)初始化编码器/解码器并使用去噪自编码和回译进行训练来评估无监督 MT。
- 通过以 CLM/MLM 进行预训练并在 WMT’16 罗马尼亚语-英语上进行训练来评估有监督 MT。
- 在混合相关语言数据时,演示对低资源语言建模的困惑度(perplexities)有所改善。
实验结果
研究问题
- RQ1无监督跨语言目标(CLM、MLM)是否能在没有并行数据的情况下产生可迁移的多语言表示?
- RQ2是否结合利用并行数据的有监督跨语言目标(TLM)能改善跨语言迁移?
- RQ3XLM 预训练方法如何影响跨语言分类(XNLI)和机器翻译(无监督与有监督)?
- RQ4跨语言预训练对低资源语言及跨语言词嵌入有何影响?
主要发现
- 无监督的 MLM 与 MLM+CLM 基线在跨语言分类上表现出色,MLM+TLM 提供了显著提升。
- 在 XNLI 上,MLM+TLM 在平均准确率上实现了最先进的改进(相较于先前 ARTETXE/SOTA 的零样本分类最高可达 4.9% 的绝对提升)。
- 无监督 MT 受益于 MLM 预训练,在 WMT’16 德英上达到 34.3 BLEU,超过此前最先进水平 >9 BLEU。
- 有监督 MT 的预训练也有收益,罗马尼亚语-英语达到 38.5 BLEU,超越此前最先进水平 >4 BLEU。
- 跨语言预训练在利用印地语/英语数据时提升尼泊尔语的困惑度(例如 Nepali+Hindi 结果 115.6 对 157.2)。
- XLM 嵌入在跨语言词相似度指标(SemEval’17)上优于 MUSE 与 Concat,并显示更接近的单词翻译对。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。