QUICK REVIEW

[论文解读] Cross-lingual Language Model Pretraining

Guillaume Lample, Alexis Conneau|arXiv (Cornell University)|Jan 22, 2019

Topic Modeling参考文献 35被引用 1,617

一句话总结

本论文提出跨语言语言模型（XLM），通过无监督（CLM/MLM）和有监督（TLM）预训练来学习多语言表示，在跨语言分类以及无监督和有监督机器翻译方面达到最先进的结果。

ABSTRACT

Recent studies have demonstrated the efficiency of generative pretraining for English natural language understanding. In this work, we extend this approach to multiple languages and show the effectiveness of cross-lingual pretraining. We propose two methods to learn cross-lingual language models (XLMs): one unsupervised that only relies on monolingual data, and one supervised that leverages parallel data with a new cross-lingual language model objective. We obtain state-of-the-art results on cross-lingual classification, unsupervised and supervised machine translation. On XNLI, our approach pushes the state of the art by an absolute gain of 4.9% accuracy. On unsupervised machine translation, we obtain 34.3 BLEU on WMT'16 German-English, improving the previous state of the art by more than 9 BLEU. On supervised machine translation, we obtain a new state of the art of 38.5 BLEU on WMT'16 Romanian-English, outperforming the previous best approach by more than 4 BLEU. Our code and pretrained models will be made publicly available.

研究动机与目标

证明跨语言预训练能提升多语言句子表示。
提出面向单语数据的无监督跨语言目标（CLM、MLM）。
引入利用并行数据的有监督跨语言目标（TLM）。
在 XNLI、无监督 MT 和有监督 MT 上展示最先进的性能。
强调对低资源语言和跨语言嵌入的益处。

提出的方法

在 N 种语言之间使用通过字节对编码学习的共享子词表。
使用 CLM 对单语数据进行 Transformer 语言模型训练，以从前文预测一个词。
通过对 15% 的标记进行掩码并结合上下文进行预测来训练 MLM，且每个批次包含多句话的流式处理。
引入 Translation Language Modeling (TLM)，将并行句子拼接并掩码标记，使模型能够同时关注源语言和目标语言的上下文以对齐表示。
在跨语言分类任务上对预训练的 XLM 进行微调，通过在第一隐藏状态上加一个线性分类器并在英文 NLI 数据上训练，同时在 15 种语言上评估。
通过以不同的预训练方案（EMB、CLM、MLM）初始化编码器/解码器并使用去噪自编码和回译进行训练来评估无监督 MT。
通过以 CLM/MLM 进行预训练并在 WMT’16 罗马尼亚语-英语上进行训练来评估有监督 MT。
在混合相关语言数据时，演示对低资源语言建模的困惑度（perplexities）有所改善。

实验结果

研究问题

RQ1无监督跨语言目标（CLM、MLM）是否能在没有并行数据的情况下产生可迁移的多语言表示？
RQ2是否结合利用并行数据的有监督跨语言目标（TLM）能改善跨语言迁移？
RQ3XLM 预训练方法如何影响跨语言分类（XNLI）和机器翻译（无监督与有监督）？
RQ4跨语言预训练对低资源语言及跨语言词嵌入有何影响？

主要发现

无监督的 MLM 与 MLM+CLM 基线在跨语言分类上表现出色，MLM+TLM 提供了显著提升。
在 XNLI 上，MLM+TLM 在平均准确率上实现了最先进的改进（相较于先前 ARTETXE/SOTA 的零样本分类最高可达 4.9% 的绝对提升）。
无监督 MT 受益于 MLM 预训练，在 WMT’16 德英上达到 34.3 BLEU，超过此前最先进水平 >9 BLEU。
有监督 MT 的预训练也有收益，罗马尼亚语-英语达到 38.5 BLEU，超越此前最先进水平 >4 BLEU。
跨语言预训练在利用印地语/英语数据时提升尼泊尔语的困惑度（例如 Nepali+Hindi 结果 115.6 对 157.2）。
XLM 嵌入在跨语言词相似度指标（SemEval’17）上优于 MUSE 与 Concat，并显示更接近的单词翻译对。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。