Skip to main content
QUICK REVIEW

[論文レビュー] Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family

Rodrigo Santos, João Domingos Rodrigues|arXiv (Cornell University)|Mar 4, 2024
Neural Networks and Applications被引用数 6
ひとこと要約

本論文は二つのオープンなポルトガル語エンコーダーモデル—Albertina 1.5B PT および Albertina 100M PT—を紹介し、オープンなポルトガル語NLPエコシステムを拡張するとともに、GLUE/SuperGLUEベースの新しいポルトガル語ベンチマークを提供します。

ABSTRACT

To foster the neural encoding of Portuguese, this paper contributes foundation encoder models that represent an expansion of the still very scarce ecosystem of large language models specifically developed for this language that are fully open, in the sense that they are open source and openly distributed for free under an open license for any purpose, thus including research and commercial usages. Like most languages other than English, Portuguese is low-resourced in terms of these foundational language resources, there being the inaugural 900 million parameter Albertina and 335 million Bertimbau. Taking this couple of models as an inaugural set, we present the extension of the ecosystem of state-of-the-art open encoders for Portuguese with a larger, top performance-driven model with 1.5 billion parameters, and a smaller, efficiency-driven model with 100 million parameters. While achieving this primary goal, further results that are relevant for this ecosystem were obtained as well, namely new datasets for Portuguese based on the SuperGLUE benchmark, which we also distribute openly.

研究の動機と目的

  • ポルトガル語(PTPTおよびPTBR)向けの完全オープンエンコーダーモデルのエコシステムを拡張する。
  • パフォーマンスと効率のバランスを取るために、より大きいモデルとより小さいモデルを提供する。
  • 評価のためのポルトガル語 GLUE/SuperGLUEベースのベンチマークを作成・配布する。

提案手法

  • ポルトガル語単言語データ上でDeBERTaベースのモデルの事前学習を続ける。
  • DeBERTa-Base から 128-token シーケンスと 200 トレーニングエポックで Albertina 100M PT (PTPT/PTBR) を開発する。
  • DeBERTa-XXLarge から 128/256/512 の混在シーケンス長と大規模な事前学習を用いて Albertina 1.5B PT (PTPT/PTBR) を開発する。
  • OSCAR (Portuguese)、CulturaX、DCEP、ParlamentoPT、Europarl から訓練データを収集し、ドメインフィルタリングをトップレベルドメイン (.pt vs .br) で実施する。
  • PTPT および PTBR のために、英語データセットを機械翻訳(DeepL)して新しいポルトガル語 GLUE/SuperGLUE ベンチマークを作成する。
  • GLUE/SuperGLUE のバリアントにわたる8〜10の下流タスクでモデルをファインチューニングし、評価する。

実験結果

リサーチクエスチョン

  • RQ1完全オープンのポルトガル語エンコーダーモデルは、下流タスクで最先端のパフォーマンスを達成できるか?
  • RQ2より大きいオープンなポルトガル語エンコーダーとより小さいものの相対的な利点は何か?
  • RQ3言語特化データでの継続的な事前学習は、多言語ベースラインに比べて顕著にパフォーマンスを向上させるか?
  • RQ4PTPT および PTBR 変種は、特定バリアント用コーパラに基づいて訓練した場合、どのように比較されるか?
  • RQ5新しい GLUE/SuperGLUE 風のベンチマークは、オープンエンコーダーの真のポルトガル語NLP能力を反映しているか?

主な発見

  • Albertina 1.5B PT は、オープンエンコーダーの中でほとんどのポルトガル語タスクにおいて最先端のパフォーマンスを達成する。
  • Albertina 100M PT は競合的であり、そのサイズを考慮するとしばしば BERTimbau および DeBERTa EN のベースラインを上回る。
  • Larger models generally yield better downstream task performance except MRPC where 900M can outperform 1.5B.
  • PTBR models often outperform PTPT counterparts on several tasks, influenced by dataset size and translation quality.
  • Continuing monolingual pre-training yields gains over multilingual baselines, confirming language-specific advantages.
  • Albertina 1.5B PT surpasses the previous Albertina 900M in most tasks, excluding WNLI outlier effects.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。