[论文解读] MarIA: Spanish Language Models
本文提出四个大规模西班牙语语言模型(RoBERTa-base、RoBERTa-large、GPT-2 变体),在西班牙国立图书馆的海量西语预训练语料库上进行训练,并新增一个问答数据集 SQAC;在九项任务上与多语言及西语基线进行评估。
This work presents MarIA, a family of Spanish language models and associated resources made available to the industry and the research community. Currently, MarIA includes RoBERTa-base, RoBERTa-large, GPT2 and GPT2-large Spanish language models, which can arguably be presented as the largest and most proficient language models in Spanish. The models were pretrained using a massive corpus of 570GB of clean and deduplicated texts with 135 billion words extracted from the Spanish Web Archive crawled by the National Library of Spain between 2009 and 2019. We assessed the performance of the models with nine existing evaluation datasets and with a novel extractive Question Answering dataset created ex novo. Overall, MarIA models outperform the existing Spanish models across a variety of NLU tasks and training settings.
研究动机与目标
- 通过创建在庞大西语语料库上进行预训练的高质量西语语言模型,弥补高质量西语模型的空白。
- 开发并发布用于西语的基于 RoBERTa 的编码器和基于 GPT-2 的解码器模型。
- 创建并评估一个新的西语问答数据集(SQAC),并提供广泛的下游任务基准。
提出的方法
- 从 2009–2019 BNE 爬取的 .es 域的大型预训练语料库,进行严格清洗与去重。
- 使用掩码语言建模(不使用下一个句子预测)在 512-token 序列长度上训练 RoBERTa-base(RoBERTa-b)和 RoBERTa-large(RoBERTa-l)。
- 在同一语料库上使用语言建模目标训练 GPT-2(gpt2)和 GPT-2 large(gpt2-large)。
- 在 9 个下游任务上进行微调,采用标准化的 HuggingFace 基准流程与网格搜索超参数调整。
- 引入 SQAC,这是一个具有 18,817 个问题、覆盖 6,247 个上下文的西班牙语提取式问答数据集,用于在西语中进行问答评估。

实验结果
研究问题
- RQ1在一个大规模、 diverse、非维基百科语料库上训练西班牙语语言模型对下游 NLP 任务的影响是什么?
- RQ2基于 RoBERTa 的编码器和基于 GPT-2 的解码器在标准基准上与现有西语及多语言模型相比有何差异?
- RQ3一个新的西班牙语 QA 数据集(SQAC)是否能够实现对西语 QA 系统的稳健评估与发展?
主要发现
| 数据集 | 指标 | RoBERTa-b | RoBERTa-l | BETO | mBERT | BERTIN | ELECTRA |
|---|---|---|---|---|---|---|---|
| MLDoc | F1 | 0.9664 | 0.9702 | 0.9714 | 0.9617 | 0.9668 | 0.9565 |
| CoNLL-NERC | F1 | 0.8851 | 0.8823 | 0.8759 | 0.8691 | 0.8835 | 0.7954 |
| CAPITEL-NERC | F1 | 0.8960 | 0.9051 | 0.8772 | 0.8810 | 0.8856 | 0.8035 |
| PAWS-X | F1 | 0.9020 | 0.9150 | 0.8930 | 0.9000 | 0.8965 | 0.9045 |
| UD-POS | F1 | 0.9907 | 0.9904 | 0.9900 | 0.9886 | 0.9898 | 0.9818 |
| CAPITEL-POS | F1 | 0.9846 | 0.9856 | 0.9836 | 0.9839 | 0.9847 | 0.9816 |
| SQAC | F1 | 0.7923 | 0.8202 | 0.7923 | 0.7562 | 0.7678 | 0.7383 |
| STS | Combined | 0.8533 | 0.8411 | 0.8159 | 0.8164 | 0.7945 | 0.8063 |
| XNLI | Accuracy | 0.8016 | 0.8263 | 0.8130 | 0.7876 | 0.7890 | 0.7878 |
- RoBERTa-large 通常在大多数任务中取得最佳或近似最佳的性能,在 CAPITEL-NERC、STS 和 SQAC 等任务上相对于基线有显著提升。
- RoBERTa-base 和 RoBERTa-large 在多项任务上优于多语言 mBERT 及若干西语基线(BETO、BERTIN、ELECTRA)。
- 在非维基百科数据集(CAPITEL-NERC、STS、SQAC)上,基于维基百科训练的模型与非维基百科数据之间的差距似乎较大。
- UD-POS 和 CAPITEL-POS 在所有模型中显示出很高的准确率,RoBERTa 变体领先或达到顶级基线水平。
- SQAC 提供了一个高质量、原生西班牙语的问答基准,具备强烈的人类一致性,填补了西语抽取式问答评估的空白。
- GPT-2 模型因数据集限制而非任务为基础的基准,而是以困惑度曲线进行评估。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。