QUICK REVIEW

[论文解读] Spanish Pre-trained BERT Model and Evaluation Data

José Cañete, Gabriel Chaperon|arXiv (Cornell University)|Aug 6, 2023

Natural Language Processing Techniques被引用 336

一句话总结

该论文提出了一个仅在西班牙语数据上训练的西班牙语语言模型 BERT，以及一个 GLUE 风格的西班牙语基准（GLUES），在若干任务上与多语言 BERT 基线相比具有竞争力或处于领先地位。作者还公开发布了模型、训练数据和基准。

ABSTRACT

The Spanish language is one of the top 5 spoken languages in the world. Nevertheless, finding resources to train or evaluate Spanish language models is not an easy task. In this paper we help bridge this gap by presenting a BERT-based language model pre-trained exclusively on Spanish data. As a second contribution, we also compiled several tasks specifically for the Spanish language in a single repository much in the spirit of the GLUE benchmark. By fine-tuning our pre-trained Spanish model, we obtain better results compared to other BERT-based models pre-trained on multilingual corpora for most of the tasks, even achieving a new state-of-the-art on some of them. We have publicly released our model, the pre-training data, and the compilation of the Spanish benchmarks.

研究动机与目标

为研究人员提供一个可访问的西班牙语语言 BERT 预训练模型。
编制一个 GLUE 风格的西语 NLP 任务套件，以标准化评估。
证明用西班牙语数据微调的仅西班牙语 BERT 在许多任务上可以优于多语言 BERT 基线。
向社区发布预训练数据和基准。

提出的方法

在 ~3B 条西班牙语单词（来自维基百科和 OPUS 来源）上训练一个 BERT-base 大小的模型（12 层、12 个头、768 隐藏层），创建区分大小写和未区分大小写版本。
使用 32K 词汇表（31K 子词加 1K 占位符），结合 SentencePiece 和动态掩码（10x）以及全词掩码。
两阶段预训练：第一阶段在 2048 batch size/128 最大长度下进行 900k 步，其次在 256 batch size/512 最大长度下进行剩余步数；前 10000 步的热身；在 TPU v3-8 上训练。
构建 GLUES，一个西班牙语 GLUE 风格的基准，包含 XNLI、PAWS-X、ConLL NER、UD POS、MLDoc、UD2.2 依存分析，以及 QA 数据集（MLQA、XQuAD、TAR）。
使用标准 BERT 微调方法对任务特定输出进行微调，采用 Adam、10% 的热身，以及用于长序列的滑动窗口；用适合任务的指标进行评估。

实验结果

研究问题

RQ1用西班牙语数据微调的仅西班牙语 BERT 模型是否在西班牙语 NLP 任务上优于多语言 BERT 基线？
RQ2GLUE 风格的西语基准（GLUES）是否可以标准化评估并促进西班牙语 NLP 的进展？
RQ3在问答、NER、POS 等任务上，西班牙语独占的 BERT 相对于多语言模型的相对优势与局限性是什么？

主要发现

西班牙语 BERT 未区分大小写和区分大小写在 XNLI、PAWS-X、NER、POS、MLDoc 多个设置中均优于最佳的多语言 BERT；XNLI 展示了最大的提升之一。
在 POS 和 MLDoc 任务上达成了新的状态最优（SOTA）。
QA 结果具有竞争力，但与多语言模型相比仍存在一些差距，可能是由于 MLQA 的机器翻译质量和跨语言特性。
在某些任务上，在多语言数据上训练的多语言模型（如 XLM-RoBERTa）在更广泛的多语言数据上训练时仍然获得更高分数。
GLUES 提供一个以西班牙语为焦点的基准，能够实现标准化评估并在西班牙语 NLP 模型之间进行公平比较。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。