[论文解读] GottBERT: a pure German Language Model
GottBERT 是首个在德语 OSCAR 语料库上进行单语言预训练的德语 RoBERTa 模型,在 NER 任务和一些文本分类任务上优于若干德语和多语言模型。
Lately, pre-trained language models advanced the field of natural language processing (NLP). The introduction of Bidirectional Encoders for Transformers (BERT) and its optimized version RoBERTa have had significant impact and increased the relevance of pre-trained models. First, research in this field mainly started on English data followed by models trained with multilingual text corpora. However, current research shows that multilingual models are inferior to monolingual models. Currently, no German single language RoBERTa model is yet published, which we introduce in this work (GottBERT). The German portion of the OSCAR data set was used as text corpus. In an evaluation we compare its performance on the two Named Entity Recognition (NER) tasks Conll 2003 and GermEval 2014 as well as on the text classification tasks GermEval 2018 (fine and coarse) and GNAD with existing German single language BERT models and two multilingual ones. GottBERT was pre-trained related to the original RoBERTa model using fairseq. All downstream tasks were trained using hyperparameter presets taken from the benchmark of German BERT. The experiments were setup utilizing FARM. Performance was measured by the $F_{1}$ score. GottBERT was successfully pre-trained on a 256 core TPU pod using the RoBERTa BASE architecture. Even without extensive hyper-parameter optimization, in all NER and one text classification task, GottBERT already outperformed all other tested German and multilingual models. In order to support the German NLP field, we publish GottBERT under the AGPLv3 license.
研究动机与目标
- 推动创建一个纯德语 RoBERTa 模型,以克服德语 NLP 中多语言模型的局限性。
- 使用大型德语 OSCAR 数据集对 GottBERT 进行预训练,以实现强劲的下游表现。
- 在 NER 和文本分类任务上,将 GottBERT 与德语和多语言基线进行比较评估。
提出的方法
- 使用 RoBERTa BASE 架构,在 145GB 德语 OSCAR 数据上对 GottBERT 进行预训练,使用 52k 子词词汇。
- 使用 fairseq 进行预训练,配置为 256-core TPU pod,100k 更新步数,批量大小 8k,10k 预热,以及多项式学习率衰减。
- 将 GottBERT 转换为 Hugging Face 格式,以用于下游任务,使用与德语 BERT 基准相一致的 FARM 预设。
- 在 CoNLL 2003 和 GermEval 2014 NER 任务、GermEval 2018(粗粒度和细粒度)以及 GNAD 文本分类任务上进行评估。
- 以 F1 分数衡量性能,基于验证性能对每个任务报告 10 次运行中的最佳结果。
实验结果
研究问题
- RQ1在 OSCAR 数据上训练的德语单语言 RoBERTa 模型是否能在标准 NLP 基准测试中胜过现有德语 BERT 模型和多语言模型?
- RQ2语言特定的分词和数据规模对德语 NER 与文本分类任务的性能有何影响?
- RQ3德语 BERT 基准中的下游任务超参数对于基于 RoBERTa 的德语模型是否足够,还是需要进一步微调?
主要发现
| 模型 | 类型 | #语言 | 数据规模 | 数据来源 |
|---|---|---|---|---|
| GottBERT | RoBERTa | 1 | 145GB | OSCAR |
| dbmz BERT | BERT | 1 | 16GB | Wikipedia, EU Bookshop Open Subtitles, CommonCrawl, ParaCrawl, NewsCrawl |
| mBERT cased | BERT | 104 | unknown | Wikipedia |
| German BERT | BERT | 1 | 12GB | news articles, Open Legal Data, Wikipedia |
| XLM RoBERTa | RoBERTa | 100 | 2.5TB (66.6GB German) | CommonCrawl, Wikipedia |
- GottBERT 在 CoNLL 2003 和 GermEval 2014 NER 任务上均优于所有测试的德语和多语言模型。
- GottBERT 在 GermEval 2018 细粒度分类上取得最佳结果,但并非在所有文本分类任务中都占优,因为 XLM RoBERTa 或其他基线可能表现更佳。
- 总体而言,GottBERT 即使在未进行广泛超参数优化的情况下也表现出色,凸显了大规模德语 OSCAR 数据和单语言建模的优势。
- GottBERT 是首个在 TPU pods 上训练的德语单语言 RoBERTa 模型,使用来自德语 OSCAR 文本的 52k BPE 词汇。
- 所使用的德语 OSCAR 部分(145GB)有助于在 NER 方面相对于某些基线获得更优结果。
- 比较中的基于 RoBERTa 的模型并不总是达到潜力的全部,可能是由于下游超参数不优化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。