[论文解读] XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation
XGLUE 引入一个跨语言基准,涵盖理解与生成的 11 个任务,并在 19 种语言上评估强基线,如 Unicoder 和 XLM-R。
In this paper, we introduce XGLUE, a new benchmark dataset that can be used to train large-scale cross-lingual pre-trained models using multilingual and bilingual corpora and evaluate their performance across a diverse set of cross-lingual tasks. Comparing to GLUE(Wang et al., 2019), which is labeled in English for natural language understanding tasks only, XGLUE has two main advantages: (1) it provides 11 diversified tasks that cover both natural language understanding and generation scenarios; (2) for each task, it provides labeled data in multiple languages. We extend a recent cross-lingual pre-trained model Unicoder(Huang et al., 2019) to cover both understanding and generation tasks, which is evaluated on XGLUE as a strong baseline. We also evaluate the base versions (12-layer) of Multilingual BERT, XLM and XLM-R for comparison.
研究动机与目标
- 提供一个多语言基准,用于使用多语言和双语语料训练大规模跨语言模型。
- 在包括理解与生成在内的多样化任务上评估跨语言迁移能力。
- 将跨语言预训练模型(Unicoder)扩展到生成任务,并与 M-BERT、XLM、XLM-R 等基线进行比较。
- 评估任务设置(枢纽语言与多语言微调)以及预训练数据如何影响跨语言性能。
提出的方法
- 在多语言和双语语料上使用 MLM 和 TLM,在跨语言设定下对 Unicoder 进行预训练。
- 通过带有共享 BPE嵌入的编解码器架构将 Unicoder 扩展到生成任务。
- 提出 xDAE(多语言去噪自编码)和 xFNP(多语言未来 n-gram 预测)作为生成任务的预训练目标。
- 使用 11 个任务覆盖 NER、POS、NC、MLQA、XNLI、PAWS-X、QADSM、WPR、QAM、QG、NTG 来评估跨语言能力。
- 在英语标注上对预训练模型进行微调,并在多语言测试集上进行评估。
实验结果
研究问题
- RQ1跨语言预训练模型在多语言/双语数据上是否能够泛化到许多语言的多样任务?
- RQ2将预训练扩展到生成任务是否会提升跨语言生成和理解的性能?
- RQ3枢纽语言微调与多语言微调在跨语言迁移中的影响是什么?
- RQ4预训练数据规模和语言覆盖范围对理解和生成任务的跨语言迁移有何影响?
- RQ5针对生成任务的特定预训练目标(xDAE、xFNP)是否在生成任务上优于纯理解预训练基线?
主要发现
- Unicoder LC 在 9 个理解任务上略微领先于 M-BERT 和 XLM-R base。
- Unicoder LC 因更大的预训练语料和使用 TLM 而优于 Unicoder SC。
- Unicoder xDAE 和 Unicoder xFNP 在 2 个生成任务上显著优于 M-BERT 和 XLM-R base。
- Unicoder xFNP 在生成任务上往往略好于 xDAE,尽管由于不同策略,比较并非完全公平。
- 对生成任务的预训练扩展对跨语言文本生成能力很重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。