Skip to main content
QUICK REVIEW

[论文解读] InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training

Zewen Chi, Li Dong|arXiv (Cornell University)|Jul 15, 2020
Topic Modeling参考文献 43被引用 77
一句话总结

InfoXLM 将跨语言预训练形式化为多语言视图之间的互信息最大化,并引入 XlCo,一种跨语言对比任务,通过利用单语和并行数据来提升迁移能力。

ABSTRACT

In this work, we present an information-theoretic framework that formulates cross-lingual language model pre-training as maximizing mutual information between multilingual-multi-granularity texts. The unified view helps us to better understand the existing methods for learning cross-lingual representations. More importantly, inspired by the framework, we propose a new pre-training task based on contrastive learning. Specifically, we regard a bilingual sentence pair as two views of the same meaning and encourage their encoded representations to be more similar than the negative examples. By leveraging both monolingual and parallel corpora, we jointly train the pretext tasks to improve the cross-lingual transferability of pre-trained models. Experimental results on several benchmarks show that our approach achieves considerably better performance. The code and pre-trained models are available at https://aka.ms/infoxlm.

研究动机与目标

  • 提供一个统一的信息理论视角来解释跨语言预训练任务(MMLM、TLM)及其跨语言影响。
  • 引入新的预训练任务 XlCo,使翻译对之间的序列级互信息最大化。
  • 开发 InfoXLM,联合利用单语和并行语料以实现更好的跨语言迁移。
  • 在跨语言自然语言推理、问答和句子检索上评估 InfoXLM。

提出的方法

  • 将跨语言预训练表述为在多语言-多粒度文本之间最大化互信息。
  • 将 MMLM 重新解释为最大化 I(c1; x1) 和跨语言锚 I(x1; x2) 以促进跨语言相关性。
  • 将 TLM 解释为最大化 I(c1, c2; x1),从而利用跨语言上下文。
  • 提出 XlCo,通过 InfoNCE、动量对比设置以及大量负样本来最大化 I(c1; c2)。
  • 对比混合(mixup contrast)和在通用层上进行对比以提升跨语言迁移能力。
  • 通过对英文枢轴对齐和多语言采样,联合优化 MMLM、TLM 和 XlCo 来预训练 InfoXLM。

实验结果

研究问题

  • RQ1信息理论框架是否可以统一现有的跨语言预训练任务并解释它们的跨语言迁移效果?
  • RQ2引入跨语言对比任务(XlCo)是否在跨语言对齐和下游迁移方面优于仅使用 MMLM/TLM?
  • RQ3在通用层上执行 XlCo 与在最后一层执行的影响有多大?
  • RQ4混合对比(mixup contrast)和动量对比对跨语言迁移和表征质量有何贡献?
  • RQ5InfoXLM 是否在 XNLI、MLQA 和跨语言句子检索上对多语言表现有更好表现?

主要发现

  • InfoXLM 在 XNLI、MLQA 与跨语言检索任务上超越强基线。
  • 跨语言对比(XlCo)提高零-shot 转移和跨语言对齐,尤其在用于通用层时效果显著。
  • XlCo 与 TLM 结合相比单独任一任务能带来更强的跨语言迁移,且动量对比提升表征质量。
  • InfoXLM 降低 MLQA 与 XNLI 上英语与其他语言之间的跨语言迁移差距。
  • InfoXLM 的基础模型和大模型在多个基准上对 XLM-R 与相关基线具有竞争力甚至优越性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。