[论文解读] Spanish Pre-trained BERT Model and Evaluation Data
该论文提出了一个仅在西班牙语数据上训练的西班牙语语言模型 BERT,以及一个 GLUE 风格的西班牙语基准(GLUES),在若干任务上与多语言 BERT 基线相比具有竞争力或处于领先地位。作者还公开发布了模型、训练数据和基准。
The Spanish language is one of the top 5 spoken languages in the world. Nevertheless, finding resources to train or evaluate Spanish language models is not an easy task. In this paper we help bridge this gap by presenting a BERT-based language model pre-trained exclusively on Spanish data. As a second contribution, we also compiled several tasks specifically for the Spanish language in a single repository much in the spirit of the GLUE benchmark. By fine-tuning our pre-trained Spanish model, we obtain better results compared to other BERT-based models pre-trained on multilingual corpora for most of the tasks, even achieving a new state-of-the-art on some of them. We have publicly released our model, the pre-training data, and the compilation of the Spanish benchmarks.
研究动机与目标
- 为研究人员提供一个可访问的西班牙语语言 BERT 预训练模型。
- 编制一个 GLUE 风格的西语 NLP 任务套件,以标准化评估。
- 证明用西班牙语数据微调的仅西班牙语 BERT 在许多任务上可以优于多语言 BERT 基线。
- 向社区发布预训练数据和基准。
提出的方法
- 在 ~3B 条西班牙语单词(来自维基百科和 OPUS 来源)上训练一个 BERT-base 大小的模型(12 层、12 个头、768 隐藏层),创建区分大小写和未区分大小写版本。
- 使用 32K 词汇表(31K 子词加 1K 占位符),结合 SentencePiece 和 动态掩码(10x)以及全词掩码。
- 两阶段预训练:第一阶段在 2048 batch size/128 最大长度下进行 900k 步,其次在 256 batch size/512 最大长度下进行剩余步数;前 10000 步的热身;在 TPU v3-8 上训练。
- 构建 GLUES,一个西班牙语 GLUE 风格的基准,包含 XNLI、PAWS-X、ConLL NER、UD POS、MLDoc、UD2.2 依存分析,以及 QA 数据集(MLQA、XQuAD、TAR)。
- 使用标准 BERT 微调方法对任务特定输出进行微调,采用 Adam、10% 的热身,以及用于长序列的滑动窗口;用适合任务的指标进行评估。
实验结果
研究问题
- RQ1用西班牙语数据微调的仅西班牙语 BERT 模型是否在西班牙语 NLP 任务上优于多语言 BERT 基线?
- RQ2GLUE 风格的西语基准(GLUES)是否可以标准化评估并促进西班牙语 NLP 的进展?
- RQ3在问答、NER、POS 等任务上,西班牙语独占的 BERT 相对于多语言模型的相对优势与局限性是什么?
主要发现
- 西班牙语 BERT 未区分大小写和区分大小写在 XNLI、PAWS-X、NER、POS、MLDoc 多个设置中均优于最佳的多语言 BERT;XNLI 展示了最大的提升之一。
- 在 POS 和 MLDoc 任务上达成了新的状态最优(SOTA)。
- QA 结果具有竞争力,但与多语言模型相比仍存在一些差距,可能是由于 MLQA 的机器翻译质量和跨语言特性。
- 在某些任务上,在多语言数据上训练的多语言模型(如 XLM-RoBERTa)在更广泛的多语言数据上训练时仍然获得更高分数。
- GLUES 提供一个以西班牙语为焦点的基准,能够实现标准化评估并在西班牙语 NLP 模型之间进行公平比较。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。