QUICK REVIEW
[论文解读] XLM-E: Cross-lingual Language Model Pre-training via ELECTRA
Zewen Chi, Shaohan Huang|arXiv (Cornell University)|Jun 30, 2021
Natural Language Processing Techniques被引用 24
一句话总结
XLM-E 引入 ELECTRA 风格的预训练任务用于跨语言学习,结合多语言替换标记检测和翻译替换标记检测,在计算量远低的情况下实现有竞争力的跨语言理解。
ABSTRACT
In this paper, we introduce ELECTRA-style tasks to cross-lingual language model pre-training. Specifically, we present two pre-training tasks, namely multilingual replaced token detection, and translation replaced token detection. Besides, we pretrain the model, named as XLM-E, on both multilingual and parallel corpora. Our model outperforms the baseline models on various cross-lingual understanding tasks with much less computation cost. Moreover, analysis shows that XLM-E tends to obtain better cross-lingual transferability.
研究动机与目标
- 以比 MLM 基方法更高效的目标来推动跨语言预训练。
- 提出基于 ELECTRA 风格的判别式预训练任务,适用于多语言和并行数据。
- 在多语言语料和并行语料上对 XLM-E 进行预训练,以提升跨语言迁移。
- 展示在 XTREME 基准上效率提升与迁移能力。
提出的方法
- 采用 ELECTRA 风格的替换标记检测作为核心预训练目标。
- 定义多语言替换标记检测 (MRTD),在语言之间共享生成器/判别器。
- 定义翻译替换标记检测 (TRTD),使用并行语料对来检测翻译对中的替换标记。
- 在多语言和并行数据上共同预训练一个较小的生成器和一个判别器,使用组合损失。
- 在自注意力中引入门控相对位置偏置,以适应跨语言信号。
- 小心地初始化 Transformer 参数以稳定大规模训练。
实验结果
研究问题
- RQ1在多语言和并行数据上的判别式 ELECTRA 风格预训练能否产生具有竞争力的跨语言表示?
- RQ2与 MLM 基础预训练相比,MRTD/TRTD 是否提升跨语言迁移性和效率?
- RQ3XLM-E 在模型规模上的可扩展性如何,以及相对于基线的计算成本是多少?
- RQ4门控相对位置偏置对跨语言对齐和迁移任务的影响是什么?
- RQ5如对齐和检索任务所示,XLM-E 表示在语言间是否实现了普遍对齐?
主要发现
- XLM-E 在 XTREME 上实现强大的跨语言性能,计算量显著低于 XLM-R 和 XLM-Align。
- 判别式预训练(MRTD/TRTD)和门控相对位置偏置有助于提升跨语言迁移和表示对齐。
- 扩大 XLM-E 的规模(Large/XL)可获得更多提升,同时相对于更大基线保持参数效率。
- XLM-E 在若干任务上实现更好的跨语言对齐和更小的迁移差距,表明普适表示的改进。
- 消融实验表明 TRTD 和门控位置偏置有益,移除会降低性能。
- XLM-E 展示出显著的效率:在更低的 FLOPs 下保持或提升 XTREME 结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。