QUICK REVIEW

[论文解读] Pre-training Data Quality and Quantity for a Low-Resource Language: New Corpus and BERT Models for Maltese

Kurt Micallef, Albert Gatt|arXiv (Cornell University)|May 21, 2022

Topic Modeling参考文献 34被引用 10

一句话总结

本论文提出了一种新的500M-token单语语料库，用于马耳他语，预训练了一个单语BERT模型（BERTu），并进一步微调了mBERT（mBERTu），在依存句法分析、词性标注、命名实体识别和情感分析任务上实现了最先进性能。关键发现是：多样化领域预训练优于仅使用维基百科数据，且仅需10%–30%的语料库数据即可超越mBERT，表明在低资源设置下，数据质量和领域多样性比数据量本身更为关键。

ABSTRACT

Multilingual language models such as mBERT have seen impressive cross-lingual transfer to a variety of languages, but many languages remain excluded from these models. In this paper, we analyse the effect of pre-training with monolingual data for a low-resource language that is not included in mBERT -- Maltese -- with a range of pre-training set ups. We conduct evaluations with the newly pre-trained models on three morphosyntactic tasks -- dependency parsing, part-of-speech tagging, and named-entity recognition -- and one semantic classification task -- sentiment analysis. We also present a newly created corpus for Maltese, and determine the effect that the pre-training data size and domain have on the downstream performance. Our results show that using a mixture of pre-training domains is often superior to using Wikipedia text only. We also find that a fraction of this corpus is enough to make significant leaps in performance over Wikipedia-trained models. We pre-train and compare two models on the new corpus: a monolingual BERT model trained from scratch (BERTu), and a further pre-trained multilingual BERT (mBERTu). The models achieve state-of-the-art performance on these tasks, despite the new corpus being considerably smaller than typically used corpora for high-resourced languages. On average, BERTu outperforms or performs competitively with mBERTu, and the largest gains are observed for higher-level tasks.

研究动机与目标

为解决马耳他语等低资源语言缺乏高质量、大规模单语语料库的问题，这些语言被排除在mBERT和XLM-R等多语言模型之外。
研究预训练数据规模和领域多样性对低资源环境下下游NLP性能的影响。
开发并发布一个新的高质量马耳他语语料库（Korpus Malti v4.0），并训练针对马耳他语的最先进BERT模型。
比较从零开始的单语预训练（BERTu）与在现有多语言mBERT基础上进一步预训练（mBERTu）在下游任务性能上的差异。
在形态句法（句法分析、词性标注、命名实体识别）和语义（情感分析）任务上评估模型，分析数据构成与规模的影响。

提出的方法

通过从多样化、高质量来源（如政府文件、新闻、文学作品）收集文本，构建了新的单语马耳他语语料库（Korpus Malti v4.0），避免使用噪声较大的网络爬取数据。
使用标准BERT训练目标（掩码语言建模和下一句预测）在新语料库上从零开始预训练单语BERT模型（BERTu）。
在同一马耳他语语料库上进一步预训练mBERT（mBERTu），以使多语言模型更好地适应该语言。
使用标准微调协议，在四个下游任务上评估模型：依存句法分析（LAS）、词性标注（XPOS准确率）、命名实体识别（span F1）和情感分析（macro-F1）。
系统性地改变预训练数据规模（10%至100%）和领域构成（仅维基百科 vs. 混合领域），以分析数据效率和领域影响。
使用固定训练步数，并按数据规模成比例缩放，以确保不同数据规模下的训练时长一致。

实验结果

研究问题

RQ1在马耳他语中，使用除维基百科外的多样化领域混合预训练是否能带来优于仅使用维基百科数据的下游性能？
RQ2在低资源设置下，需要多少预训练数据才能实现相对于mBERT的显著性能提升？
RQ3从零开始训练单语BERT模型（BERTu）是否优于在现有多语言模型基础上进一步预训练（mBERTu）？
RQ4预训练领域与下游任务领域匹配在多大程度上能提升性能？
RQ5在低资源场景下，一个相对较小但高质量的语料库（500M词元）是否能超越在更大、更嘈杂语料库上预训练的模型？

主要发现

在所有下游任务中，使用混合领域（如新闻、政府文件、文学）预训练的表现始终优于仅使用维基百科数据的预训练。
仅使用完整语料库的10%时，BERTu和mBERTu在所有任务上均已超越mBERT，表明数据质量与多样性比数据量更为关键。
BERTu在依存句法分析（LAS: 85.2）、词性标注（XPOS: 98.2%）、命名实体识别（F1: 88.7%）和情感分析（macro-F1: 78.3%）任务上均达到最先进性能，优于mBERTu和mBERT。
当仅使用10%的数据时，BERTu与mBERTu之间的性能差距显著缩小，且BERTu在情感分析等语义任务上始终表现更优。
令人意外的是，性能并非随数据量增加而单调上升；例如，BERTu使用70%数据时在情感分析任务上的表现优于100%版本，表明可能存在过拟合或超参数缩放不理想。
结果表明，语言特定的预训练对更高阶语义任务最为有益，BERTu在情感分析任务中表现出色，相比mBERT提升了6.5个百分点。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。