QUICK REVIEW

[論文レビュー] Pre-training Data Quality and Quantity for a Low-Resource Language: New Corpus and BERT Models for Maltese

Kurt Micallef, Albert Gatt|arXiv (Cornell University)|May 21, 2022

Topic Modeling参考文献 34被引用数 10

ひとこと要約

本稿では、マルタ語用に新規に構築された5億トークンの単語語彙（単語言語）を用いて、マルタ語用に微調整された単語言語BERTモデル（BERTu）を事前学習し、さらにmBERT（mBERTu）を微調整することで、依存解析、品詞タグ付け、NER、感情分析の各タスクで最先端の性能を達成した。主な発見は、Wikipediaのみで構成されたデータよりも、多様なドメインの事前学習データが優れていることであり、全語彙の10〜30％のデータでmBERTを上回ることを示した。これは、低リソース環境において、データ量よりもデータ品質とドメインの多様性がより重要であることを示している。

ABSTRACT

Multilingual language models such as mBERT have seen impressive cross-lingual transfer to a variety of languages, but many languages remain excluded from these models. In this paper, we analyse the effect of pre-training with monolingual data for a low-resource language that is not included in mBERT -- Maltese -- with a range of pre-training set ups. We conduct evaluations with the newly pre-trained models on three morphosyntactic tasks -- dependency parsing, part-of-speech tagging, and named-entity recognition -- and one semantic classification task -- sentiment analysis. We also present a newly created corpus for Maltese, and determine the effect that the pre-training data size and domain have on the downstream performance. Our results show that using a mixture of pre-training domains is often superior to using Wikipedia text only. We also find that a fraction of this corpus is enough to make significant leaps in performance over Wikipedia-trained models. We pre-train and compare two models on the new corpus: a monolingual BERT model trained from scratch (BERTu), and a further pre-trained multilingual BERT (mBERTu). The models achieve state-of-the-art performance on these tasks, despite the new corpus being considerably smaller than typically used corpora for high-resourced languages. On average, BERTu outperforms or performs competitively with mBERTu, and the largest gains are observed for higher-level tasks.

研究の動機と目的

mBERT や XLM-R に含められていない低リソース言語、たとえばマルタ語の高品質で大規模な単語言語語彙が不足しているという問題に対処すること。
低リソース環境における下流NLPタスクのパフォーマンスに与える、事前学習データのサイズとドメイン多様性の影響を調査すること。
新規に高品質なマルタ語語彙（Korpus Malti v4.0）を構築し、マルタ語用に最先端のBERTベースのモデルを訓練・公開すること。
下流タスクのパフォーマンスという観点から、新規に単語言語BERTモデルを訓練する（BERTu）のと、多言語mBERTをさらに事前学習する（mBERTu）のを比較すること。
形態句構造的（解析、品詞タグ付け、NER）および意味的（感情分析）タスクの両方でモデルを評価し、データ構成と規模の影響を評価すること。

提案手法

Webスクレイピングによるノイズの多いデータを避けるために、政府文書、ニュース、文学など多様で高品質なソースからテキストを収集し、新規にマルタ語単語言語語彙（Korpus Malti v4.0）を構築した。
マスクド言語モデルと次文予測という標準的なBERT学習目的を用いて、新規に構築した語彙上で、単語言語BERTモデル（BERTu）を新規に訓練した。
同じマルタ語語彙上でmBERTをさらに事前学習し、多言語モデルを言語に適応させた（mBERTu）。
標準的な微調整プロトコルを用いて、4つの下流タスク（依存解析：LAS、品詞タグ付け：XPOS精度、NER：スパンF1、感情分析：マクロ-F1）でモデルを評価した。
事前学習データのサイズ（10％〜100％）とドメイン構成（Wikipediaのみ vs. 混合ドメイン）を系統立てて変化させ、データ効率性とドメインの影響を分析した。
データサイズに比例してスケーリングされた固定の学習ステップ数を用い、データスケール間で学習期間が一貫するようにした。

実験結果

リサーチクエスチョン

RQ1Wikipediaを越える多様なドメイン（例：ニュース、政府、文学）の混合事前学習データを用いることで、マルタ語の下流タスクパフォーマンスが向上するか？
RQ2特に低リソース環境において、mBERTを上回る顕著なパフォーマンス向上を得るために、どの程度の事前学習データ量が必要か？
RQ3新規に単語言語BERTモデルを訓練する（BERTu）のと、既存の多言語モデルをさらに事前学習する（mBERTu）のとでは、どちらがマルタ語NLPタスクで優れたパフォーマンスを示すか？
RQ4事前学習ドメインを下流タスクのドメインに一致させることで、どの程度パフォーマンスが向上するか？
RQ55億トークンという比較的小さな高品質語彙（500M tokens）が、より大規模でノイズの多い語彙で事前学習されたモデルを低リソース状況で上回ることができるか？

主な発見

ニュース、政府、文学など多様なドメインの混合事前学習データを用いることで、全下流タスクでWikipediaのみの事前学習を常に上回った。
全語彙の10％のデータのみで、BERTuとmBERTuが全タスクでmBERTを上回った。これは、データ品質と多様性がデータ量よりも重要であることを示している。
BERTuは依存解析（LAS: 85.2）、品詞タグ付け（XPOS: 98.2％）、NER（F1: 88.7％）、感情分析（マクロ-F1: 78.3％）で最先端のパフォーマンスを達成し、mBERTu や mBERT を上回った。
10％のデータでも、BERTuとmBERTuのパフォーマンスギャップは著しく縮まり、特に感情分析のような意味的タスクでBERTuが一貫してmBERTuを上回った。
驚くべきことに、データサイズが増加するにつれてパフォーマンスが常に上昇するとは限らず、たとえば感情分析では70％のデータで学習したBERTuが100％のバージョンを上回った。これは、過学習やハイパーパramータのスケーリングが不適切である可能性を示唆している。
結果から、言語固有の事前学習が特に高レベルの意味的タスクで最も効果的であることが示された。BERTuは感情分析でmBERTを6.5ポイントも上回り、特にその強みを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。