[论文解读] XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization
XTREME 引入一个广泛的零样本跨语言基准,覆盖 40 种语言和 9 个任务,用于评估多语言表示与迁移学习,揭示跨语言差距显著,尤其在句法和句子检索任务上。
Much recent progress in applications of machine learning models to NLP has been driven by benchmarks that evaluate models across a wide variety of tasks. However, these broad-coverage benchmarks have been mostly limited to English, and despite an increasing interest in multilingual models, a benchmark that enables the comprehensive evaluation of such methods on a diverse range of languages and tasks is still missing. To this end, we introduce the Cross-lingual TRansfer Evaluation of Multilingual Encoders XTREME benchmark, a multi-task benchmark for evaluating the cross-lingual generalization capabilities of multilingual representations across 40 languages and 9 tasks. We demonstrate that while models tested on English reach human performance on many tasks, there is still a sizable gap in the performance of cross-lingually transferred models, particularly on syntactic and sentence retrieval tasks. There is also a wide spread of results across languages. We release the benchmark to encourage research on cross-lingual learning methods that transfer linguistic knowledge across a diverse and representative set of languages and tasks.
研究动机与目标
- 激发需要一个超越英语为中心任务的全面跨语言评估基准的必要性。
- 提供多样且跨类型的语言与任务集合,以评估跨语言迁移能力。
- 推动标准化评估和基线方法,推动多语言表示学习的发展。
- 分析当前最先进的跨语言模型在不同语言和任务上的局限性。
提出的方法
- 将 Cross-lingual Transfer Evaluation of Multilingual Encoders(xtreme)基准定义为覆盖 40 种语言和 9 个任务。
- 采用零-shot 跨语言迁移,即训练数据仅为英语,在目标语言上进行测试。
- 组建覆盖分类、结构化预测和问答的任务,以在多层语言层面测试意义迁移。
- 提供伪造的(翻译)测试集用于诊断,覆盖所有语言并促进更广泛的分析。
- 评估强基线(mBERT、XLM、XLM-R、MMTE)和基于翻译的方法,发布代码和排行榜。
- 分析性能与预训练数据规模、语言家族和脚本之间的相关性,以理解迁移动态。
实验结果
研究问题
- RQ1在零-shot 设置下,当前多语言表示在跨 9 个任务的 40 种 typologically 多样化语言上的迁移能力如何?
- RQ2主要的跨语言迁移差距是什么,如何随任务、语言家族或脚本而变化?
- RQ3翻译为基础的增强或语言内训练数据是否相对于零-shot 提升跨语言迁移?
- RQ4模型性能与预训练数据规模及语言特征(家族、脚本)之间的相关性如何?
- RQ5哪些诊断方法可以揭示最先进跨语言模型在多样语言上的局限性?
主要发现
- 零-shot 迁移模型在英语上接近人类水平,但在其他语言上有显著下降,尤其在句法和句子检索任务。
- XLM-R Large 在零-shot 迁移中通常优于 mBERT 和其他基线,在 XQuAD 和 MLQA 上获得显著提升,但在结构化预测任务上的提升有限。
- 基于翻译的基线(translate-train、translate-test)提供了可观的提升,通常在各任务上缩小跨语言迁移差距。
- 语言内训练数据在若干任务上可以超过零-shot,但在英语数据充足时,零-shot 方法在复杂的问答任务上仍表现出强竞争力。
- 跨语言迁移在许多语言中与预训练数据规模相关,印欧语言效果更强,在汉藏、日语-琉球、朝鲜语和尼日尔-刚果语系中效应较弱。
- 在语言和任务之间仍存在显著的迁移差距,凸显跨语言迁移方法仍有改进空间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。