Skip to main content
QUICK REVIEW

[论文解读] XLM-E: Cross-lingual Language Model Pre-training via ELECTRA

Zewen Chi, Shaohan Huang|arXiv (Cornell University)|Jun 30, 2021
Natural Language Processing Techniques被引用 24
一句话总结

XLM-E 引入 ELECTRA 风格的预训练任务用于跨语言学习,结合多语言替换标记检测和翻译替换标记检测,在计算量远低的情况下实现有竞争力的跨语言理解。

ABSTRACT

In this paper, we introduce ELECTRA-style tasks to cross-lingual language model pre-training. Specifically, we present two pre-training tasks, namely multilingual replaced token detection, and translation replaced token detection. Besides, we pretrain the model, named as XLM-E, on both multilingual and parallel corpora. Our model outperforms the baseline models on various cross-lingual understanding tasks with much less computation cost. Moreover, analysis shows that XLM-E tends to obtain better cross-lingual transferability.

研究动机与目标

  • 以比 MLM 基方法更高效的目标来推动跨语言预训练。
  • 提出基于 ELECTRA 风格的判别式预训练任务,适用于多语言和并行数据。
  • 在多语言语料和并行语料上对 XLM-E 进行预训练,以提升跨语言迁移。
  • 展示在 XTREME 基准上效率提升与迁移能力。

提出的方法

  • 采用 ELECTRA 风格的替换标记检测作为核心预训练目标。
  • 定义多语言替换标记检测 (MRTD),在语言之间共享生成器/判别器。
  • 定义翻译替换标记检测 (TRTD),使用并行语料对来检测翻译对中的替换标记。
  • 在多语言和并行数据上共同预训练一个较小的生成器和一个判别器,使用组合损失。
  • 在自注意力中引入门控相对位置偏置,以适应跨语言信号。
  • 小心地初始化 Transformer 参数以稳定大规模训练。

实验结果

研究问题

  • RQ1在多语言和并行数据上的判别式 ELECTRA 风格预训练能否产生具有竞争力的跨语言表示?
  • RQ2与 MLM 基础预训练相比,MRTD/TRTD 是否提升跨语言迁移性和效率?
  • RQ3XLM-E 在模型规模上的可扩展性如何,以及相对于基线的计算成本是多少?
  • RQ4门控相对位置偏置对跨语言对齐和迁移任务的影响是什么?
  • RQ5如对齐和检索任务所示,XLM-E 表示在语言间是否实现了普遍对齐?

主要发现

  • XLM-E 在 XTREME 上实现强大的跨语言性能,计算量显著低于 XLM-R 和 XLM-Align。
  • 判别式预训练(MRTD/TRTD)和门控相对位置偏置有助于提升跨语言迁移和表示对齐。
  • 扩大 XLM-E 的规模(Large/XL)可获得更多提升,同时相对于更大基线保持参数效率。
  • XLM-E 在若干任务上实现更好的跨语言对齐和更小的迁移差距,表明普适表示的改进。
  • 消融实验表明 TRTD 和门控位置偏置有益,移除会降低性能。
  • XLM-E 展示出显著的效率:在更低的 FLOPs 下保持或提升 XTREME 结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。