Skip to main content
QUICK REVIEW

[논문 리뷰] GottBERT: a pure German Language Model

Raphael Scheible, Fabian Thomczyk|arXiv (Cornell University)|2020. 12. 03.
Topic Modeling참고 문헌 22인용 수 41
한 줄 요약

GottBERT는 독일어 OSCAR 코퍼스로 사전 학습된 최초의 독일어 단일 언어 RoBERTa 모델이며 NER 작업 및 일부 텍스트 분류 작업에서 여러 독일어 및 다국어 모델을 능가합니다.

ABSTRACT

Lately, pre-trained language models advanced the field of natural language processing (NLP). The introduction of Bidirectional Encoders for Transformers (BERT) and its optimized version RoBERTa have had significant impact and increased the relevance of pre-trained models. First, research in this field mainly started on English data followed by models trained with multilingual text corpora. However, current research shows that multilingual models are inferior to monolingual models. Currently, no German single language RoBERTa model is yet published, which we introduce in this work (GottBERT). The German portion of the OSCAR data set was used as text corpus. In an evaluation we compare its performance on the two Named Entity Recognition (NER) tasks Conll 2003 and GermEval 2014 as well as on the text classification tasks GermEval 2018 (fine and coarse) and GNAD with existing German single language BERT models and two multilingual ones. GottBERT was pre-trained related to the original RoBERTa model using fairseq. All downstream tasks were trained using hyperparameter presets taken from the benchmark of German BERT. The experiments were setup utilizing FARM. Performance was measured by the $F_{1}$ score. GottBERT was successfully pre-trained on a 256 core TPU pod using the RoBERTa BASE architecture. Even without extensive hyper-parameter optimization, in all NER and one text classification task, GottBERT already outperformed all other tested German and multilingual models. In order to support the German NLP field, we publish GottBERT under the AGPLv3 license.

연구 동기 및 목표

  • 독일어 NLP에서 다국어 모델 한계를 극복하기 위해 독일어 단일 언어 RoBERTa 모델의 생성을 동기 부여합니다.
  • 강력한 다운스트림 성능을 가능하게 하도록 대규모 독일어 OSCAR 데이터 세트에서 GottBERT를 사전 학습합니다.
  • NER 및 텍스트 분류 작업에서 GottBERT를 독일어 및 다국어 기준선과 비교 평가합니다.

제안 방법

  • GottBERT를 RoBERTa BASE 아키텍처를 사용하여 145GB의 독일 OSCAR 데이터와 52k 서브워드 어휘로 사전 학습합니다.
  • 256-core TPU 팟과 함께 fairseq를 사용하여 사전 학습하고, 100k 업데이트 스텝, 배치 크기 8k, 10k 워밍업 및 다항식 LR 감소를 사용합니다.
  • 독다운 스트림 작업을 위해 German BERT 벤치마크에 맞춘 FARM 프리셋을 사용하여 GottBERT를 Hugging Face 포맷으로 변환합니다.
  • CoNLL 2003 및 GermEval 2014 NER 작업, GermEval 2018(코스 및 파인) 및 GNAD 텍스트 분류 작업에서 평가합니다.
  • 검증 성능을 기준으로 작업당 10회 중 최상의 값을 보고하고 F1 점수로 성능을 측정합니다.

실험 결과

연구 질문

  • RQ1OSCAR 데이터로 학습된 독일어 단일 언어 RoBERTa 모델이 표준 NLP 벤치마크에서 기존의 독일어 BERT 모델 및 다국어 모델을 능가할 수 있을까요?
  • RQ2언어 특화 토큰화와 데이터 크기가 독일어 NER 및 텍스트 분류 작업의 성능에 어떤 영향을 미치나요?
  • RQ3독일어 BERT 벤치마크의 다운스트림 작업 하이퍼파라미터가 RoBERTa 기반 독일어 모델에 충분한가요, 아니면 추가 튜닝이 유리한가요?

주요 결과

모델유형#언어데이터 크기데이터 소스
GottBERTRoBERTa1145GBOSCAR
dbmz BERTBERT116GBWikipedia, EU Bookshop Open Subtitles, CommonCrawl, ParaCrawl, NewsCrawl
mBERT casedBERT104unknownWikipedia
German BERTBERT112GBnews articles, Open Legal Data, Wikipedia
XLM RoBERTaRoBERTa1002.5TB (66.6GB German)CommonCrawl, Wikipedia
  • GottBERT는 CoNLL 2003 및 GermEval 2014 NER 작업에서 다른 모든 테스트된 독일어 및 다국어 모델보다 우수합니다.
  • GottBERT는 GermEval 2018 세밀 분류에서 최고 성능을 달성하지만, XLM RoBERTa 또는 다른 기준선이 더 나은 성능을 보이는 모든 텍스트 분류 작업에서는 일관되게 우수하지 않습니다.
  • 전반적으로 GottBERT는 광범위한 하이퍼파라미터 최적화 없이도 강한 성능을 보여주며, 대규모 독일 OSCAR 데이터와 단일언어 모델링의 이점을 강조합니다.
  • GottBERT는 TPU 팟에서 학습된 최초의 발표된 독일어 단일 언어 RoBERTa 모델로, 독일 OSCAR 텍스트에서 파생된 52k BPE 어휘를 사용합니다.
  • 사용된 독일 OSCAR 부분(145GB)은 일부 벤치마크에 비해 NER 성능을 높이는 데 기여합니다.
  • 비교에 사용된 RoBERTa 기반 모델들은 항상 최적의 성능에 도달하지 못했으며, 이는 다운스트림 하이퍼파라미터가 최적이 아닐 수 있기 때문입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.