[论文解读] Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks
Unicoder 通过五个跨语言任务和多语言微调进行预训练,在 XNLI 和 XQA 上相对于 Multilingual BERT 和 XLM 基线取得了最先进的结果。
We present Unicoder, a universal language encoder that is insensitive to different languages. Given an arbitrary NLP task, a model can be trained with Unicoder using training data in one language and directly applied to inputs of the same task in other languages. Comparing to similar efforts such as Multilingual BERT and XLM, three new cross-lingual pre-training tasks are proposed, including cross-lingual word recovery, cross-lingual paraphrase classification and cross-lingual masked language model. These tasks help Unicoder learn the mappings among different languages from more perspectives. We also find that doing fine-tuning on multiple languages together can bring further improvement. Experiments are performed on two tasks: cross-lingual natural language inference (XNLI) and cross-lingual question answering (XQA), where XLM is our baseline. On XNLI, 1.8% averaged accuracy improvement (on 15 languages) is obtained. On XQA, which is a new cross-lingual dataset built by us, 5.5% averaged accuracy improvement (on French and German) is obtained.
研究动机与目标
- 说明在标注数据有限的情况下跨语言迁移学习的必要性。
- 提出一个用多种跨语言预训练任务训练的通用编码器,以学习语言无关的表示。
- 展示多语言微调如何进一步提升跨语言迁移。
- 在 XNLI 和 XQA 上对比强基线进行实证评估并建立新的最先进结果。
提出的方法
- 介绍 Unicoder,这是一个具有 12 层变换器、1024 隐藏单元和 95k 词汇表的模型,在 15 种语言间共享。
- 使用五种任务进行预训练:掩码语言建模(MLM)、翻译语言建模(TLM)、跨语言词语恢复、跨语言同义句分类,以及跨语言掩码语言建模(文档级)。
- 在跨语言词语恢复中使用双语句对注意力机制来恢复原始词语。
- 通过将两种语言的句子拼接并使用第一个标记表示进行二分类,训练跨语言复述分类器。
- 通过对齐不同语言的句子来构建跨语言文档,并对 256-token 序列应用 MLM。
- 采用多语言微调策略进行微调,联合训练来自多语言的数据(真实或伪翻译)以改善迁移。
实验结果
研究问题
- RQ1在极少量或无需针对语言的特定适配的情况下,是否可以用一个用多样跨语言任务训练的单一通用编码器在多种语言上取得良好表现?
- RQ2除了 MLM 和 TLM 之外的额外跨语言预训练任务是否会提升跨语言迁移性能?
- RQ3多语言微调是否会进一步提升跨语言性能,语言数量如何影响收益?
- RQ4在 XNLI 和 XQA 上,Unicoder 与强基线(Multilingual BERT、XLM)相比如何?
- RQ5对跨语言任务而言,英语与其他语言的联合微调有哪些影响?
主要发现
| 微调方法 | XNLI 平均准确率 (%) |
|---|---|
| TRANSLATE-TRAIN (Conneau et al. 2018 baseline) | 65.4 |
| Multilingual BERT (Devlin et al. 2018) | 61.6 |
| XLM (Lample & Conneau 2019) | 76.7 |
| Unicoder (ours) | 76.9 |
| TRANSLATE-TEST (translate test data to English) | 67.2 |
| XLM (as baseline under TRANSLATE-TEST) | 74.2 |
| Unicoder (TRANSLATE-TEST) | 74.9 |
| Cross-lingual TEST (train English, test on target) | 65.6 |
| Unicoder (Cross-lingual TEST) | 75.4 |
| Multi-language Fine-tune (train English + multiple languages) | 77.8 |
| Unicoder (Multi-language Fine-tune) | 78.5 |
- Unicoder 在 XNLI 上达到最先进的性能,尤其是采用多语言微调时,在最佳设置中达到 78.5% 的平均准确率。
- 在 XNLI 上,Unicoder 在各种微调设置下均优于 XLM,当与多语言微调结合时,增益高达 1.6%。
- 在新的 XQA 数据集上,Unicoder 在英语加其他语言微调并进行 translate-train 时达到 69.7% 的平均准确率,较 XLM 基线领先多达 5.5 个百分点。
- 消融实验显示去掉三项新的跨语言任务中的任意一项都会降低性能,其中 Word Recovery 对提升贡献显著;Paraphrase 分类的下降相对较小。
- 多语言微调始终提升性能,微调语言越多通常得到更好的结果,尽管某些语言对存在例外。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。