[論文レビュー] MarIA: Spanish Language Models
この論文は四つの大規模なスペイン語言語モデル(RoBERTa-base, RoBERTa-large, GPT-2 variants)を、National Library of Spainの巨大なスペイン語事前学習コーパスと新しいQAデータ SQAC を使って訓練し、これらのモデルを多言語・スペイン語ベースラインと9タスクで評価します。
This work presents MarIA, a family of Spanish language models and associated resources made available to the industry and the research community. Currently, MarIA includes RoBERTa-base, RoBERTa-large, GPT2 and GPT2-large Spanish language models, which can arguably be presented as the largest and most proficient language models in Spanish. The models were pretrained using a massive corpus of 570GB of clean and deduplicated texts with 135 billion words extracted from the Spanish Web Archive crawled by the National Library of Spain between 2009 and 2019. We assessed the performance of the models with nine existing evaluation datasets and with a novel extractive Question Answering dataset created ex novo. Overall, MarIA models outperform the existing Spanish models across a variety of NLU tasks and training settings.
研究の動機と目的
- 大規模なスペイン語コーパスで訓練された大型事前学習モデルを作成することにより、高品質なスペイン語言語モデルのギャップを埋める。
- スペイン語用の RoBERTa ベースのエンコーダと GPT-2 ベースのデコーダモデルを開発・公開する。
- 新しいスペイン語QAデータセット(SQAC)を作成・評価し、広範な下流タスクベンチマークを提供する。
提案手法
- 2009–2019 BNE クロールの .es ドメインからの大規模事前学習コーパスを、厳格なクレンジングと重複排除を行って構築する。
- 512-token シーケンス長で next-sentence prediction なしのマスクド言語モデリングを用いて RoBERTa-base (RoBERTa-b) と RoBERTa-large (RoBERTa-l) を訓練する。
- 同じコーパス上で言語モデリング目的を用いて GPT-2 (gpt2) と GPT-2 large (gpt2-large) を訓練する。
- 標準化された HuggingFace ベースの手法とグリッドサーチのハイパーパラメータ調整で 9つの下流タスクにモデルをファインチューニングする。
- SQAC を導入し、6,247 コンテキストに対して 18,817 問題からなるスペイン語の抽出型 QA データセットを用いてスペイン語での QA 評価を可能にする。

実験結果
リサーチクエスチョン
- RQ1大規模で多様な非 Wikipedia コーパスでスペイン語言語モデルを訓練することは、下流NLPタスクにどのような影響を与えるか?
- RQ2RoBERTa ベースのエンコーダと GPT-2 ベースのデコーダは、標準的なベンチマーク上で既存のスペイン語モデルやマルチリンガルモデルと比較してどうか?
- RQ3新しいスペイン語 QA データセット(SQAC)は、スペイン語 QA システムの堅牢な評価と開発を可能にするか?
主な発見
| Dataset | Metric | RoBERTa-b | RoBERTa-l | BETO | mBERT | BERTIN | ELECTRA |
|---|---|---|---|---|---|---|---|
| MLDoc | F1 | 0.9664 | 0.9702 | 0.9714 | 0.9617 | 0.9668 | 0.9565 |
| CoNLL-NERC | F1 | 0.8851 | 0.8823 | 0.8759 | 0.8691 | 0.8835 | 0.7954 |
| CAPITEL-NERC | F1 | 0.8960 | 0.9051 | 0.8772 | 0.8810 | 0.8856 | 0.8035 |
| PAWS-X | F1 | 0.9020 | 0.9150 | 0.8930 | 0.9000 | 0.8965 | 0.9045 |
| UD-POS | F1 | 0.9907 | 0.9904 | 0.9900 | 0.9886 | 0.9898 | 0.9818 |
| CAPITEL-POS | F1 | 0.9846 | 0.9856 | 0.9836 | 0.9839 | 0.9847 | 0.9816 |
| SQAC | F1 | 0.7923 | 0.8202 | 0.7923 | 0.7562 | 0.7678 | 0.7383 |
| STS | Combined | 0.8533 | 0.8411 | 0.8159 | 0.8164 | 0.7945 | 0.8063 |
| XNLI | Accuracy | 0.8016 | 0.8263 | 0.8130 | 0.7876 | 0.7890 | 0.7878 |
- RoBERTa-large はほとんどのタスクで最良またはほぼ最良の性能を示し、CAPITEL-NERC, STS, SQAC での顕著な改善がみられる。
- RoBERTa-base と RoBERTa-large は、多くのタスクで multilingual mBERT やいくつかのスペイン語ベースライン(BETO, BERTIN, ELECTRA)を上回っている。
- Wikipedia で訓練されたモデルと非 Wikipedia データの間のギャップは、非 Wikipedia データセット(CAPITEL-NERC, STS, SQAC)で顕著に見られる。
- UD-POS と CAPITEL-POS はモデル間で非常に高い精度を示し、RoBERTa 系列がトップのベースラインを先導または同等である。
- SQAC は高品質でオリジナルスペイン語の QA ベンチマークを提供し、スペイン語の抽出型 QA 評価のギャップを埋める。
- GPT-2 モデルはデータセットの制限のため、タスクベースのベンチマークではなく困惑度曲線で評価された。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。