QUICK REVIEW

[論文レビュー] Evaluating Transferability of BERT Models on Uralic Languages

Judit Ács, Dániel Lévai|arXiv (Cornell University)|Sep 13, 2021

Natural Language Processing Techniques被引用数 3

ひとこと要約

この論文は、11のウロ＝アルタイ語族言語において、単言語、多言語、ランダム初期化されたBERTモデルを評価し、特にmBERTとXLM-RoBERTaのような高リソースモデルを最小限のタスク固有データで微調整することで、低リソースのウロ＝アルタイ語族言語におけるPOSおよびNERタスクで最先端の性能を達成できることを示している。驚くべきことに、ターゲット言語が同じ script を共有する限り、系統的になかなか関連のない言語間でも転送性が強く保たれる。

ABSTRACT

Transformer-based language models such as BERT have outperformed previous models on a large number of English benchmarks, but their evaluation is often limited to English or a small number of well-resourced languages. In this work, we evaluate monolingual, multilingual, and randomly initialized language models from the BERT family on a variety of Uralic languages including Estonian, Finnish, Hungarian, Erzya, Moksha, Karelian, Livvi, Komi Permyak, Komi Zyrian, Northern S\'ami, and Skolt S\'ami. When monolingual models are available (currently only et, fi, hu), these perform better on their native language, but in general they transfer worse than multilingual models or models of genetically unrelated languages that share the same character set. Remarkably, straightforward transfer of high-resource models, even without special efforts toward hyperparameter optimization, yields what appear to be state of the art POS and NER tools for the minority Uralic languages where there is sufficient data for finetuning.

研究の動機と目的

低リソースのウロ＝アルタイ語族言語、とりわけマイノリティ言語や未開発言語へのBERTモデルの転送性を評価すること。
単言語モデルが、多言語間転送設定において多言語モデルを上回る性能を示すかどうかを調査すること。
共通の継承表記法と文字セットカバレッジがモデルの転送性能に与える影響を評価すること。
言語の類縁性（系統的類縁性）が、語彙的および系列ラベル付けタスクにおける転送性能を向上させるかどうかを検討すること。
最小限の微調整で事前学習済みモデルを用いたPOSおよびNERタスクのベースライン性能を確立すること。

提案手法

11のウロ＝アルタイ語族言語について、POSおよびNERタスクにおいて、多言語（mBERT、XLM-RoBERTa）、単言語（EstBERT、FinBERT、HuBERT）、ランダム初期化モデルを微調整した。
全Transformer層における文脈化表現から形態的情報を抽出するために、訓練中に重みが学習されるプローブ分類器を用いた。
標準データセット（UDおよびWikiAnn）を用いて、形態的プローブ、POSタギング、NERの評価を行い、性能指標として正確度とF1スコアを用いた。
ある言語で訓練したモデルを、関連するか関係のないウロ＝アルタイ語族言語に適用することで、多言語間転送をテストした。系統的近縁対（例：フィンランド語とカレリア語）を含めた。
サブワードトークン化を採用し、キリル文字およびラテン文字の両方のスクリプトをカバーする語彙を確保することで、多言語間転送を支援した。
ハイパーパラメータチューニングを行わず、ゼロショットおよびフェイシュット転送能力に焦点を当てて、モデル間の性能を比較した。

実験結果

リサーチクエスチョン

RQ1mBERT や XLM-RoBERTa といった多言語BERTモデルは、最小限の微調整で低リソースのウロ＝アルタイ語族言語におけるPOSおよびNERタスクで最先端の性能を達成できるか？
RQ2関連するウロ＝アルタイ語族言語（例：カレリア語のためのフィンランド語）の単言語モデルで訓練した場合、多言語モデルを上回る性能が得られるか？
RQ3共通のスクリプト（例：ラテン文字対キリル文字）や文字セットが、系統的に関連のないウロ＝アルタイ語族言語間の転送性能にどの程度影響を与えるか？
RQ4英語ベースのモデル（EngBERT）は、ウロ＝アルタイ語族言語への転送において、単語語族の単言語モデルと比較してどの程度優れているか？
RQ5母語の単語語族モデル（例：EstBERT）と多言語モデルの母語言語における性能に顕著な差があるか？

主な発見

形態的プローブでは、単語語族モデル（EstBERT、FinBERT、HuBERT）が母語言語で多言語モデルを上回るが、有意差は認められない。
POSおよびNERタスクにおいて、XLM-RoBERTa や mBERT といった多言語モデルが、すべてのウロ＝アルタイ語族言語で最先端の性能を達成しており、最小限の微調整でも顕著である。
英語ベースのEngBERTからハンガリー語（ラテン文字を使用）への転送性能が、フィンランド語やエストニア語の単語語族モデルからの転送を上回り、スクリプトの互換性が系統的類縁性よりも重要であることを示している。
ロシア語で学習されたRuBERTは、キリル文字を使用するウロ＝アルタイ語族言語（コミ＝ジリアン、コミ＝ペルミャク）においても良好な性能を示し、系統的に関連のない言語間でも同じスクリプトを共有することで強力な多言語間転送が可能であることを裏付けた。
ラテン文字を使用するノルト・サアミ語は、rand-mBERT（mBERTのランダム初期化）を用いて高水準のNER性能を達成しており、アグリューティベ言語においては継承表記の手がかりが非常に予測的であることが示された。
極めて少ないデータ（例：モクシャ語では164文）でも、XLM-RoBERTaなどのモデルは意味のある性能を達成しているが、極端に少ないデータ（例：エルドゥア語では1,680文、モクシャ語では164文）では性能が著しく低下することが判明した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。