Skip to main content
QUICK REVIEW

[论文解读] From Zero to Hero: On the Limitations of Zero-Shot Cross-Lingual Transfer with Multilingual Transformers

Anne Lauscher, Vinit Ravishankar|arXiv (Cornell University)|May 1, 2020
Topic Modeling参考文献 53被引用 35
一句话总结

本论文分析了基于大规模多语言 transformers 的零-shot 跨语言传输,显示对于遥远语言和较小目标语料库存在显著差距,并证明在目标语言数据有限的情况下进行少样本微调可以带来巨大提升,特别是在较低层级的任务上。

ABSTRACT

Massively multilingual transformers pretrained with language modeling objectives (e.g., mBERT, XLM-R) have become a de facto default transfer paradigm for zero-shot cross-lingual transfer in NLP, offering unmatched transfer performance. Current downstream evaluations, however, verify their efficacy predominantly in transfer settings involving languages with sufficient amounts of pretraining data, and with lexically and typologically close languages. In this work, we analyze their limitations and show that cross-lingual transfer via massively multilingual transformers, much like transfer via cross-lingual word embeddings, is substantially less effective in resource-lean scenarios and for distant languages. Our experiments, encompassing three lower-level tasks (POS tagging, dependency parsing, NER), as well as two high-level semantic tasks (NLI, QA), empirically correlate transfer performance with linguistic similarity between the source and target languages, but also with the size of pretraining corpora of target languages. We also demonstrate a surprising effectiveness of inexpensive few-shot transfer (i.e., fine-tuning on a few target-language instances after fine-tuning in the source) across the board. This suggests that additional research efforts should be invested to reach beyond the limiting zero-shot conditions.

研究动机与目标

  • 评估语言相似性和目标语言数据量如何影响在多语言大模型下的零-shot 传输,跨多个任务。
  • 评估任务类型是否会影响零-shot 传输的有效性。
  • 研究使用语言相似性和预训练语料规模来预测传输性能的可预测性。
  • 展示以低成本的少样本传输在资源稀缺语言中提升性能的潜力。

提出的方法

  • 在英语任务数据上对 mBERT 和 XLM-R 进行微调,并在五个任务中评估对 21 种目标语言的零-shot 传输。
  • 使用标准分词器和任务特定的架构(DEP 的 biaffine 解析器,NER 的 FFN+CRF,XNLI 和 XQuAD 的 softmax span 分类器)。
  • 通过 UAS、准确率和 EM 量化传输质量,并报告相对于英文性能的下降。
  • 分析零-shot 性能与语言相似性(lang2vec 特征 SYN、PHON、INV、FAM、GEO)以及目标语言预训练语料规模(SIZE)之间的相关性。
  • 进行线性(元回归)分析并结合贪婪特征选择,从接近度和语料规模预测零-shot 传输性能。

实验结果

研究问题

  • RQ1语言相似性和目标语言预训练语料规模在零-shot 传输中的作用是什么?
  • RQ2在零-shot 条件下,传输性能在较低层级任务与较高层级任务之间有何差异?
  • RQ3是否可以使用简单模型或线性模型从语言邻近性和语料规模预测传输性能?
  • RQ4用少量目标语言实例进行少样本传输是否有效?其有效性如何随任务和语言距离而不同?

主要发现

  • 零-shot 传输在所有任务和语言上都表现出显著下降,对于遥远语言和较小的目标语言预训练语料库,下降更大。
  • 传输与低层级任务的语言相似性相关,与高层次任务的目标语言语料规模相关。
  • 接近度特征和语料规模的线性组合可以改善对零-shot 性能的预测,尤其是对高层级任务。
  • 少样本传输(用少量目标语言示例进行微调)带来显著提升,特别是对低层任务和遥远语言,有时比零-shot 基线取得大幅超越。
  • 少样本传输的收益是在相对较小的标注工作量下实现的,但标注成本仍可能成为瓶颈,取决于任务。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。