Skip to main content
QUICK REVIEW

[論文レビュー] Spanish Pre-trained BERT Model and Evaluation Data

José Cañete, Gabriel Chaperon|arXiv (Cornell University)|Aug 6, 2023
Natural Language Processing Techniques被引用数 336
ひとこと要約

この論文は、スペイン語データのみで訓練されたスペイン語BERTモデルとGLUE風のスペイン語ベンチマーク(GLUES)を提示し、複数のタスクで多言語BERTのベースラインと比較して競合的または最先端の結果を示します。著者はモデル、訓練データ、およびベンチマークを公開しています。

ABSTRACT

The Spanish language is one of the top 5 spoken languages in the world. Nevertheless, finding resources to train or evaluate Spanish language models is not an easy task. In this paper we help bridge this gap by presenting a BERT-based language model pre-trained exclusively on Spanish data. As a second contribution, we also compiled several tasks specifically for the Spanish language in a single repository much in the spirit of the GLUE benchmark. By fine-tuning our pre-trained Spanish model, we obtain better results compared to other BERT-based models pre-trained on multilingual corpora for most of the tasks, even achieving a new state-of-the-art on some of them. We have publicly released our model, the pre-training data, and the compilation of the Spanish benchmarks.

研究の動機と目的

  • 研究者がアクセス可能なスペイン語BERT事前学習モデルを提供する。
  • GLUE風のスペイン語NLPタスクのスイートを標準化して評価を統一する。
  • スペイン語データでファインチューニングしたスペイン語専用BERTが、多くのタスクで多言語BERTのベースラインを上回ることを示す。
  • コミュニティへ事前学習データとベンチマークを公開する。

提案手法

  • WikipediaおよびOPUSソースから約3B語のスペイン語データを用いてBERT-baseサイズのモデルを訓練し、大小文字版を作成する。
  • SentencePieceを用いた32K語彙(31Kサブワード+1Kプレースホルダ)と動的マスキング(10x)および全単語マスキングを適用する。
  • 2段階の事前訓練:最初は2048バッチサイズ/最大長128で900kステップ、その後は256バッチサイズ/最大長512で残りのステップを実施;ウォームアップは10000ステップ;TPU v3-8で訓練。
  • GLUESを構築する。これはXNL I、PAWS-X、CoNLL NER、UD POS、MLDoc、UD2.2依存構文解析、QAデータセット(MLQA、XQuAD、TAR)などを含むスペイン語GLUE風ベンチマークである。
  • 標準的なBERTファインチューニング(Adam、10%ウォームアップ、長い系列にはスライディングウィンドウ)を用いて、タスク固有の出力を微調整し、タスクに適した評価指標で評価する。

実験結果

リサーチクエスチョン

  • RQ1スペイン語データのみでファインチューニングしたスペイン語専用BERTモデルは、スペイン語NLPタスクで多言語BERTのベースラインを上回るのか?
  • RQ2GLUE風のスペイン語ベンチマーク(GLUES)は評価を標準化し、スペイン語NLPの進展を促進できるのか?
  • RQ3QA、NER、POS、その他のタスクにおいて、スペイン語専用BERTと多言語モデルの相対的な強みと限界は何か?

主な発見

モデルXNLIPAWS-XNER品詞MLDoc
Best mBERT78.50 a89.00 b87.38 a97.10 a95.70 a
es-BERT uncased80.1589.5582.6798.4496.12 ∗
es-BERT cased82.0189.0588.4398.97 ∗95.60
  • スペイン語BERT(uncasedおよび cased)は、XNLI、PAWS-X、NER、POS、MLDocの複数の設定で最良の多言語BERTを上回った。XNLIでは特に大きな改善を示した。
  • POSおよびMLDocのタスクで新たな最先端を達成した。
  • QAの結果は競争力がある一方、MLQAの機械翻訳品質と他言語間特性の影響により、多言語モデルとの差でいくつかのギャップが残った。
  • いくつかのタスクでは、多言語データで訓練した多言語モデル(例:XLM-RoBERTa)が、より広範な多言語データで訓練された場合により高いスコアを達成することがある。
  • GLUESはスペイン語に焦点を当てたベンチマークを提供し、スペイン語NLPモデル間の標準化された評価と公正な比較を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。