QUICK REVIEW

[論文レビュー] PORTULAN ExtraGLUE Datasets and Models: Kick-starting a Benchmark for the Neural Processing of Portuguese

Tomás Freitas Osório, Bernardo Leite|arXiv (Cornell University)|Apr 8, 2024

Natural Language Processing Techniques被引用数 5

ひとこと要約

この論文は PORTULAN ExtraGLUE を作成する。GLUE/SuperGLUE のタスクを pt-PT および pt-BR に翻訳したポルトガル語のベンチマークを作成し、ベースラインとして LoRA ベースの Albertina モデルを公開する。

ABSTRACT

Leveraging research on the neural modelling of Portuguese, we contribute a collection of datasets for an array of language processing tasks and a corresponding collection of fine-tuned neural language models on these downstream tasks. To align with mainstream benchmarks in the literature, originally developed in English, and to kick start their Portuguese counterparts, the datasets were machine-translated from English with a state-of-the-art translation engine. The resulting PORTULAN ExtraGLUE benchmark is a basis for research on Portuguese whose improvement can be pursued in future work. Similarly, the respective fine-tuned neural language models, developed with a low-rank adaptation approach, are made available as baselines that can stimulate future work on the neural processing of Portuguese. All datasets and models have been developed and are made available for two variants of Portuguese: European and Brazilian.

研究の動機と目的

PORTULAN ExtraGLUE をポルトガル語のベンチマークとして紹介するために、GLUE/SuperGLUE のタスクを欧州ポルトガル語とブラジルポルトガル語のバリアントに翻訳する。
下流タスクのために Albertina ベースのエンコーダに LoRA を適用してベースラインのファインチューニングモデルを提供する。
リソースの少ない言語でベンチマークを作成する際の翻訳の課題、ラベルの整合性、データセットの品質について検討する。
ポルトガル語 NLP における今後の研究を刺激するために、オープンソースのデータセットとベースラインを提供する。

提案手法

English GLUE/SuperGLUE タスクを pt-PT および pt-BR に DeepL MT を用いて翻訳する。
翻訳と代名詞解決の問題のため、CoLA、WSC、およびいくつかの MT に敏感なタスクを除外する。
MT の文脈を向上させるために、入力カラムを改行で結合する。
各タスクのバリアントごとに LoRA アダプタを用いて 1.5B Albertina モデルをファインチューニングする。
比較のために XLM-RoBERTa-XL および DeBERTa-V2-XXLarge のベースラインと比較評価を提供する。

実験結果

リサーチクエスチョン

RQ1機械翻訳がポルトガル語の翻訳ベンチマークタスクの品質とラベルの整合性にどのような影響を与えるか？
RQ2PORTULAN ExtraGLUE のタスクで LoRA 調整済み Albertina モデルを用いた pt-PT および pt-BR のベースライン性能はどの程度か？
RQ3翻訳されたポルトガル語のベンチマークは、英語原著およびより大きな多言語モデルと比較してタスク性能はどうか？
RQ4翻訳に関連する問題（代名詞解決、性別、固有表現）は、特定のタスク（例：WNLI、WSC、AX g）にどのような影響を与えるか？

主な発見

MT の翻訳エラーはタスク全体で平均約 8%、ラベルエラーは約 2% である。
pt-BR は一般に 7 タスクでpt-PT より良いスコアを出す。一方、3 タスクでは pt-PT が上回り、差はほとんど僅差である。
Albertina LoRA モデルは、すべてのタスクと両方のバリアントで多言語 XLM-RoBERTa-XL ベースラインを上回る。
MRPC、STS-B、RTE では、PT-BR が英語を代理する設定で元の Albertina ベースラインに匹敵することが多い、またはそれを上回る。
英語 DeBERTa-V2-XXLarge ベースラインと比較して、PT ベースの LoRA モデルは競争力があるが、データセット MT の性質と事前学習の違いにより一部のタスクで遅れをとる。
本論文は翻訳済みデータセット14件と LoRA ベースのベースライン10件をオープンリソースとして提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。