Skip to main content
QUICK REVIEW

[論文レビュー] BERTje: A Dutch BERT Model

Wietse de Vries, Andreas van Cranenburgh|arXiv (Cornell University)|Dec 19, 2019
Topic Modeling参考文献 21被引用数 214
ひとこと要約

BERTje は多言語 BERT を上回る、孤立したオランダ語の BERT モデルで、NER、POS tagging、SRL、STR、感情分析などのオランダ語 NLP タスクで一貫して優れている。

ABSTRACT

The transformer-based pre-trained language model BERT has helped to improve state-of-the-art performance on many natural language processing (NLP) tasks. Using the same architecture and parameters, we developed and evaluated a monolingual Dutch BERT model called BERTje. Compared to the multilingual BERT model, which includes Dutch but is only based on Wikipedia text, BERTje is based on a large and diverse dataset of 2.4 billion tokens. BERTje consistently outperforms the equally-sized multilingual BERT model on downstream NLP tasks (part-of-speech tagging, named-entity recognition, semantic role labeling, and sentiment analysis). Our pre-trained Dutch BERT model is made available at https://github.com/wietsedv/bertje.

研究の動機と目的

  • 高品質な孤立オランダ語BERTモデルの必要性を、多言語BERTを超えて正当化する。
  • 多様で大規模なオランダ語データでオランダ語 BERT-base モデルを構築・事前訓練する。
  • BERTje を一連のオランダ語 NLP タスクで評価し、多言語 BERT と比較する。
  • 事前訓練反復回数が低レベル・高レベルの言語タスクの性能に与える影響を分析する。

提案手法

  • 12個のトランスフォーマーブロックを持つ BERT-base アーキテクチャを使用する。
  • 書籍、TwNC、SoNaR-500、ウェブニュース、Wikipedia からの、約12GB/2.4B トークンのオランダ語多様な事前訓練コーパスを組み立てる(重複を削除)。
  • WordPiece 形式に適合させた SentencePiece による 30k WordPiece 語彙を作成する。
  • SOP(NSP の代替)とマスク言語モデリングを用いて事前訓練を行い、トークンの 15% をマスク。80%→[MASK]、10%→乱択、10%→未変更、連続する語片をマスクして単語全体を覆う。
  • NER、POS、SRL、STR、感情の複数のオランダ語NLPタスクで微調整し、多言語 BERT base と比較する。
  • 学習反復回数 850k と 1M で評価し、学習ダイナミクスを評価する。

実験結果

リサーチクエスチョン

  • RQ1多様なオランダ語データで訓練された孤立オランダ語BERTモデルは、オランダ語特有のタスクで多言語BERTを上回るのか。
  • RQ2事前訓練の反復回数(850k vs 1M)は、低レベルおよび高レベルの言語タスクにおいて性能にどう影響するのか。
  • RQ3孤立オランダ語BERTモデルが最も恩恵を受けるオランダ語NLPタスクはどれか。

主な発見

  • BERTje は CoNLL-2002 および SoNaR-1 の両方のデータセットで NER において多言語 BERT を上回る(例:テストで full BERTje の場合 NER F1 が 80.7 から 88.3 に改善)。
  • POS tagging では、Lassy Small および SoNaR-1 (test) データセットで多言語 BERT より高い正確さを達成し、最終結果は中位〜高位の 96 台前半/後半程度。
  • 意味役割と時空関係では、SRL と STR で BERTje が多言語 BERT より高く、 gains は 850k チェックポイントで最も顕著で、1M でもいくらか改善が持続。
  • オランダ語の Book Reviews データセットの感情分析では、BERTje は高度なハイパーパラメータ調整なしに最先端の性能に近づくか、同等に達する(完全に訓練された BERTje が 93.0% の test を達成)。
  • 850k チェックポイントは、完全に訓練された BERTje にしばしば匹敵するか近接しており、いくつかのタスクには長い事前訓練が有益であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。