QUICK REVIEW

[論文レビュー] Spanish Pre-trained BERT Model and Evaluation Data

José Cañete, Gabriel Chaperon|arXiv (Cornell University)|Aug 6, 2023

Natural Language Processing Techniques被引用数 336

ひとこと要約

この論文は、スペイン語データのみで訓練されたスペイン語BERTモデルとGLUE風のスペイン語ベンチマーク（GLUES）を提示し、複数のタスクで多言語BERTのベースラインと比較して競合的または最先端の結果を示します。著者はモデル、訓練データ、およびベンチマークを公開しています。

ABSTRACT

The Spanish language is one of the top 5 spoken languages in the world. Nevertheless, finding resources to train or evaluate Spanish language models is not an easy task. In this paper we help bridge this gap by presenting a BERT-based language model pre-trained exclusively on Spanish data. As a second contribution, we also compiled several tasks specifically for the Spanish language in a single repository much in the spirit of the GLUE benchmark. By fine-tuning our pre-trained Spanish model, we obtain better results compared to other BERT-based models pre-trained on multilingual corpora for most of the tasks, even achieving a new state-of-the-art on some of them. We have publicly released our model, the pre-training data, and the compilation of the Spanish benchmarks.

研究の動機と目的

研究者がアクセス可能なスペイン語BERT事前学習モデルを提供する。
GLUE風のスペイン語NLPタスクのスイートを標準化して評価を統一する。
スペイン語データでファインチューニングしたスペイン語専用BERTが、多くのタスクで多言語BERTのベースラインを上回ることを示す。
コミュニティへ事前学習データとベンチマークを公開する。

提案手法

WikipediaおよびOPUSソースから約3B語のスペイン語データを用いてBERT-baseサイズのモデルを訓練し、大小文字版を作成する。
SentencePieceを用いた32K語彙（31Kサブワード＋1Kプレースホルダ）と動的マスキング（10x）および全単語マスキングを適用する。
2段階の事前訓練：最初は2048バッチサイズ/最大長128で900kステップ、その後は256バッチサイズ/最大長512で残りのステップを実施；ウォームアップは10000ステップ；TPU v3-8で訓練。
GLUESを構築する。これはXNL I、PAWS-X、CoNLL NER、UD POS、MLDoc、UD2.2依存構文解析、QAデータセット（MLQA、XQuAD、TAR）などを含むスペイン語GLUE風ベンチマークである。
標準的なBERTファインチューニング（Adam、10%ウォームアップ、長い系列にはスライディングウィンドウ）を用いて、タスク固有の出力を微調整し、タスクに適した評価指標で評価する。

実験結果

リサーチクエスチョン

RQ1スペイン語データのみでファインチューニングしたスペイン語専用BERTモデルは、スペイン語NLPタスクで多言語BERTのベースラインを上回るのか？
RQ2GLUE風のスペイン語ベンチマーク（GLUES）は評価を標準化し、スペイン語NLPの進展を促進できるのか？
RQ3QA、NER、POS、その他のタスクにおいて、スペイン語専用BERTと多言語モデルの相対的な強みと限界は何か？

主な発見

モデル	XNLI	PAWS-X	NER	品詞	MLDoc
Best mBERT	78.50 a	89.00 b	87.38 a	97.10 a	95.70 a
es-BERT uncased	80.15	89.55	82.67	98.44	96.12 ∗
es-BERT cased	82.01	89.05	88.43	98.97 ∗	95.60

スペイン語BERT（uncasedおよび cased）は、XNLI、PAWS-X、NER、POS、MLDocの複数の設定で最良の多言語BERTを上回った。XNLIでは特に大きな改善を示した。
POSおよびMLDocのタスクで新たな最先端を達成した。
QAの結果は競争力がある一方、MLQAの機械翻訳品質と他言語間特性の影響により、多言語モデルとの差でいくつかのギャップが残った。
いくつかのタスクでは、多言語データで訓練した多言語モデル（例：XLM-RoBERTa）が、より広範な多言語データで訓練された場合により高いスコアを達成することがある。
GLUESはスペイン語に焦点を当てたベンチマークを提供し、スペイン語NLPモデル間の標準化された評価と公正な比較を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。