QUICK REVIEW

[论文解读] From English To Foreign Languages: Transferring Pre-trained Language Models

Ke Tran|arXiv (Cornell University)|Feb 18, 2020

Topic Modeling参考文献 28被引用 23

一句话总结

本文提出RAMEN方法，通过使用对齐的fastText向量初始化外语词嵌入，并在单张GPU上微调双语模型，实现快速将预训练的英语BERT模型迁移至其他语言。该方法在六种语言上的自然语言蕴含（NLI）和依存句法分析任务中，零样本性能达到或优于多语言BERT（mBERT），且训练时间少于两天。

ABSTRACT

Pre-trained models have demonstrated their effectiveness in many downstream natural language processing (NLP) tasks. The availability of multilingual pre-trained models enables zero-shot transfer of NLP tasks from high resource languages to low resource ones. However, recent research in improving pre-trained models focuses heavily on English. While it is possible to train the latest neural architectures for other languages from scratch, it is undesirable due to the required amount of compute. In this work, we tackle the problem of transferring an existing pre-trained model from English to other languages under a limited computational budget. With a single GPU, our approach can obtain a foreign BERT base model within a day and a foreign BERT large within two days. Furthermore, evaluating our models on six languages, we demonstrate that our models are better than multilingual BERT on two zero-shot tasks: natural language inference and dependency parsing.

研究动机与目标

解决在计算资源受限条件下，将高性能英语预训练语言模型高效迁移至低资源语言的挑战。
实现在不从零开始训练的前提下，快速高效地将英语BERT适配至其他语言。
评估通过迁移学习构建的双语模型是否能在零样本跨语言任务中达到或超越多语言BERT的性能。
探究迁移模型在有监督依存句法分析中作为特征提取器的实用性。

提出的方法

使用对齐的fastText向量在英语嵌入空间中初始化目标语言的词嵌入，以确保翻译对之间的语义接近性。
在适应的第一阶段，固定预训练的英语BERT编码器层，仅训练目标语言的词嵌入。
构建结合英语和目标语言嵌入的双语语言模型，并在两种语言的单语数据上联合微调所有参数。
在微调过程中使用掩码语言建模目标，以保持上下文表征并提升零样本迁移性能。
仅使用单张GPU训练双语模型，将基础模型的训练时间缩短至20小时，大模型为46小时。
与mBERT及在相同数据上从零开始训练的BERT模型进行对比，以验证方法的效率与有效性。

实验结果

研究问题

RQ1能否以极低的计算成本，有效将预训练的英语BERT模型迁移至其他语言？
RQ2外语词嵌入初始化的质量在多大程度上影响零样本跨语言迁移性能？
RQ3该迁移的双语模型是否在零样本自然语言蕴含和依存句法分析任务中优于多语言BERT？
RQ4迁移后的模型能否在有监督依存句法分析中作为有效的特征提取器？

主要发现

RAMEN使用单张Tesla V100 GPU，在20小时内完成基础模型的训练，46小时内完成大模型训练，显著缩短了从零开始训练的时间。
在六种语言上，RAMEN在零样本自然语言蕴含（XNLI）和依存句法分析任务中均优于多语言BERT，尤其在使用随机初始化时，XNLI任务的平均性能提升达10.3%。
通过使用对齐的fastText向量进行正确初始化，RAMEN在零样本性能上优于mBERT，尤其在词形复杂且语序为SOV的语言（如阿拉伯语和印地语）上表现更优。
即使仅进行20,000次训练更新（约3.5 GPU小时），RAMEN在依存句法分析任务上的表现仍优于从零开始训练400小时的BERT模型，展现出极高的样本效率。
在有监督依存句法分析中，RAMEN + RoBERTa-large达到86.5的LAS得分，优于mBERT（84.6），显示出作为特征提取器的强大潜力。
迁移模型的性能与原始英语BERT模型的性能高度相关，表明高质量的英语预训练可实现有效的跨语言知识迁移。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。