QUICK REVIEW

[论文解读] XLM-E: Cross-lingual Language Model Pre-training via ELECTRA

Zewen Chi, Shaohan Huang|arXiv (Cornell University)|Jun 30, 2021

Natural Language Processing Techniques被引用 24

一句话总结

XLM-E 引入 ELECTRA 风格的预训练任务用于跨语言学习，结合多语言替换标记检测和翻译替换标记检测，在计算量远低的情况下实现有竞争力的跨语言理解。

ABSTRACT

In this paper, we introduce ELECTRA-style tasks to cross-lingual language model pre-training. Specifically, we present two pre-training tasks, namely multilingual replaced token detection, and translation replaced token detection. Besides, we pretrain the model, named as XLM-E, on both multilingual and parallel corpora. Our model outperforms the baseline models on various cross-lingual understanding tasks with much less computation cost. Moreover, analysis shows that XLM-E tends to obtain better cross-lingual transferability.

研究动机与目标

以比 MLM 基方法更高效的目标来推动跨语言预训练。
提出基于 ELECTRA 风格的判别式预训练任务，适用于多语言和并行数据。
在多语言语料和并行语料上对 XLM-E 进行预训练，以提升跨语言迁移。
展示在 XTREME 基准上效率提升与迁移能力。

提出的方法

采用 ELECTRA 风格的替换标记检测作为核心预训练目标。
定义多语言替换标记检测 (MRTD)，在语言之间共享生成器/判别器。
定义翻译替换标记检测 (TRTD)，使用并行语料对来检测翻译对中的替换标记。
在多语言和并行数据上共同预训练一个较小的生成器和一个判别器，使用组合损失。
在自注意力中引入门控相对位置偏置，以适应跨语言信号。
小心地初始化 Transformer 参数以稳定大规模训练。

实验结果

研究问题

RQ1在多语言和并行数据上的判别式 ELECTRA 风格预训练能否产生具有竞争力的跨语言表示？
RQ2与 MLM 基础预训练相比，MRTD/TRTD 是否提升跨语言迁移性和效率？
RQ3XLM-E 在模型规模上的可扩展性如何，以及相对于基线的计算成本是多少？
RQ4门控相对位置偏置对跨语言对齐和迁移任务的影响是什么？
RQ5如对齐和检索任务所示，XLM-E 表示在语言间是否实现了普遍对齐？

主要发现

XLM-E 在 XTREME 上实现强大的跨语言性能，计算量显著低于 XLM-R 和 XLM-Align。
判别式预训练（MRTD/TRTD）和门控相对位置偏置有助于提升跨语言迁移和表示对齐。
扩大 XLM-E 的规模（Large/XL）可获得更多提升，同时相对于更大基线保持参数效率。
XLM-E 在若干任务上实现更好的跨语言对齐和更小的迁移差距，表明普适表示的改进。
消融实验表明 TRTD 和门控位置偏置有益，移除会降低性能。
XLM-E 展示出显著的效率：在更低的 FLOPs 下保持或提升 XTREME 结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。