[論文レビュー] GottBERT: a pure German Language Model
GottBERTは、ドイツ語 OSCAR コーパスで事前学習された最初の単言語 RoBERTa モデルであり、NERタスクといくつかのテキスト分類タスクで、いくつかのドイツ語モデルおよび多言語モデルを上回る。
Lately, pre-trained language models advanced the field of natural language processing (NLP). The introduction of Bidirectional Encoders for Transformers (BERT) and its optimized version RoBERTa have had significant impact and increased the relevance of pre-trained models. First, research in this field mainly started on English data followed by models trained with multilingual text corpora. However, current research shows that multilingual models are inferior to monolingual models. Currently, no German single language RoBERTa model is yet published, which we introduce in this work (GottBERT). The German portion of the OSCAR data set was used as text corpus. In an evaluation we compare its performance on the two Named Entity Recognition (NER) tasks Conll 2003 and GermEval 2014 as well as on the text classification tasks GermEval 2018 (fine and coarse) and GNAD with existing German single language BERT models and two multilingual ones. GottBERT was pre-trained related to the original RoBERTa model using fairseq. All downstream tasks were trained using hyperparameter presets taken from the benchmark of German BERT. The experiments were setup utilizing FARM. Performance was measured by the $F_{1}$ score. GottBERT was successfully pre-trained on a 256 core TPU pod using the RoBERTa BASE architecture. Even without extensive hyper-parameter optimization, in all NER and one text classification task, GottBERT already outperformed all other tested German and multilingual models. In order to support the German NLP field, we publish GottBERT under the AGPLv3 license.
研究の動機と目的
- ドイツ語NLPにおける多言語モデルの限界を克服するため、単言語ドイツ語 RoBERTa モデルの作成を動機付ける。
- 強力な下流性能を可能にするため、大規模なドイツ語 OSCAR データセットで GottBERT を事前学習する。
- NERおよびテキスト分類タスクにおいて、GottBERT をドイツ語および多言語のベースラインと比較評価する。
提案手法
- 52k のサブワード語彙を用い、145GB のドイツ語 OSCAR データで RoBERTa BASE アーキテクチャを用いて GottBERT を事前学習する。
- 256コアの TPU ポッドで fairseq を用いて事前学習を行い、100k 更新ステップ、バッチサイズ 8k、10k ウォームアップおよび多項式 LR デカイを適用する。
- FARM のプリセットを用いて、GottBERT を下流タスク向けに Hugging Face 形式へ変換し、ドイツ語 BERT ベンチマークと整合させる。
- CoNLL 2003 および GermEval 2014 NER タスク、GermEval 2018(coarse および fine)および GNAD テキスト分類タスクで評価する。
- F1 スコアで性能を測定し、検証性能に基づいて各タスクごとに best-of-10 ランを報告する。
実験結果
リサーチクエスチョン
- RQ1OSCAR データで訓練されたドイツ語単言語 RoBERTa モデルは、標準的な NLP ベンチマークで既存のドイツ語 BERT モデルおよび多言語モデルを上回ることができるか?
- RQ2言語特有のトークン化とデータサイズが、ドイツ語 NER およびテキスト分類タスクの性能にどのような影響を与えるか?
- RQ3ドイツ語 BERT ベンチマークの下流タスクのハイパーパラメータは RoBERTa ベースのドイツ語モデルに十分か、それともさらなる調整が有益か?
主な発見
| モデル | タイプ | #言語 | データ サイズ | データソース |
|---|---|---|---|---|
| GottBERT | RoBERTa | 1 | 145GB | OSCAR |
| dbmz BERT | BERT | 1 | 16GB | Wikipedia, EU Bookshop Open Subtitles, CommonCrawl, ParaCrawl, NewsCrawl |
| mBERT cased | BERT | 104 | unknown | Wikipedia |
| German BERT | BERT | 1 | 12GB | news articles, Open Legal Data, Wikipedia |
| XLM RoBERTa | RoBERTa | 100 | 2.5TB (66.6GB German) | CommonCrawl, Wikipedia |
- GottBERT は CoNLL 2003 および GermEval 2014 NER タスクの両方で、他のすべてのドイツ語および多言語モデルを上回る。
- GottBERT は GermEval 2018 の fine 分類で最高の結果を達成する一方、XLM RoBERTa や他のベースラインが上回るテキスト分類タスクもあり、一様ではない。
- 全体として、GottBERT は大規模なドイツ語 OSCAR データと単言語モデリングの利点を強調し、広範なハイパーパラメータ最適化なしでも高い性能を示す。
- GottBERT は TPU ポッドで訓練された最初の公表済みのドイツ語単言語 RoBERTa モデルで、ドイツ語 OSCAR テキストから導出された 52k BPE 語彙を使用。
- 使用した German OSCAR 部分(145GB)は、いくつかのベースラインに比べて優れた NER 結果に寄与している。
- 比較対象の RoBERTa ベースモデルは、下流のハイパーパラメータが最適でない可能性があり、常に最大性能を発揮していない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。