[论文解读] XNLI: Evaluating Cross-lingual Sentence Representations
XNLI 将 MultiNLI 扩展到 15 种语言,以评估跨语言句子表示和多语种迁移,比较翻译基线、多语言编码器和基于对齐的方法。
State-of-the-art natural language processing systems rely on supervision in the form of annotated data to learn competent models. These models are generally trained on data in a single language (usually English), and cannot be directly used beyond that language. Since collecting data in every language is not realistic, there has been a growing interest in cross-lingual language understanding (XLU) and low-resource cross-language transfer. In this work, we construct an evaluation set for XLU by extending the development and test sets of the Multi-Genre Natural Language Inference Corpus (MultiNLI) to 15 languages, including low-resource languages such as Swahili and Urdu. We hope that our dataset, dubbed XNLI, will catalyze research in cross-lingual sentence understanding by providing an informative standard evaluation task. In addition, we provide several baselines for multilingual sentence understanding, including two based on machine translation systems, and two that use parallel data to train aligned multilingual bag-of-words and LSTM encoders. We find that XNLI represents a practical and challenging evaluation suite, and that directly translating the test data yields the best performance among available baselines.
研究动机与目标
- 定义一个跨语言大规模的自然语言推理 (NLI) 基准,覆盖包括低资源语言在内的 15 种语言。
- 评估基于翻译的基线和多语言句子编码器在 NLI 的跨语言迁移中的表现。
- 提出并评估基于对齐的多语言句子嵌入,用于将 English NLI 模型迁移到其他语言。
提出的方法
- 通过对前提和假设进行专业翻译,将 English NLI 数据扩展到 15 种语言。
- 评估基线方法:翻译训练集和翻译测试集。
- 评估多语言句子编码器:x-cbow (CBOW)、x-bilstm (BiLSTM),配合对齐损失。
- 提出对齐损失 L_align,利用平行数据对齐 English 和目标语言的嵌入。
- 与使用英文训练的分类器和多语言编码器的基线进行比较。
- 使用平行语料 (e.g., UN, Europarl, OpenSubtitles, IIT Bombay) 训练对齐。
实验结果
研究问题
- RQ1翻译基线在跨语言 NLI 覆盖 15 种语言时的表现如何?
- RQ2是否存在通过简单的损失传递将 English 的 NLI 能力对齐到其他语言,而推理阶段不进行翻译的多语言句子编码器?
- RQ3对跨语言迁移性能,alignment loss 和负采样的影响是什么?
- RQ4在翻译基线与对齐基线的跨语言 NLI 中,低资源语言(Urdu、Swahili)的表现如何?
- RQ5在部署时,翻译基线与多语言编码器之间的实际权衡是什么?
主要发现
- 翻译测试基线在基线方法中提供了最佳的跨语言性能。
- XNLI 使用多语言句子编码器的迁移与 translate-train 基线相竞争,但通常低于 translate-test 的表现,具体差异因语言而异,可能高达若干点。
- BiLSTM 编码器(BiLSTM-max)在所有语言中均优于 CBOW 基线。
- 基于对齐的多语言嵌入显示出潜力,并且随着对齐损失的提升,X NLI 准确率也随之改善。
- 对于 Urdu 和 Swahili,平行数据有限限制了对齐基方法的收益,突显资源的影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。