Skip to main content
QUICK REVIEW

[論文レビュー] A Focused Study to Compare Arabic Pre-training Models on Newswire IE Tasks

Wuwei Lan, Yang Chen|arXiv (Cornell University)|Apr 30, 2020
Topic Modeling参考文献 8被引用数 4
ひとこと要約

本稿では、アラビア語ギガワードデータを用いて事前学習された二言語のアラビア語-英語言語モデル、GigaBERTを紹介する。このモデルは、アラビア語情報抽出(IE)タスクにおけるクロスリンガル転移を評価することを目的としている。GigaBERTは、NER、POS、ARLのタスクでmBERTおよびXLM-R-baseを上回り、強力なゼロショット転移能力を示し、アラビア語IE分野における新たなベンチマークを確立した。

ABSTRACT

The Arabic language is a morphological rich language, posing many challenges for information extraction (IE) tasks, including Named Entity Recognition (NER), Part-of-Speech tagging (POS), Argument Role Labeling (ARL) and Relation Extraction (RE). A few multilingual pre-trained models have been proposed and show good performance for Arabic, however, most experiment results are reported on language understanding tasks, such as natural language inference, question answering and sentiment analysis. Their performance on the IE tasks is less known, in particular, the cross-lingual transfer capability from English to Arabic. In this work, we pre-train a Gigaword-based bilingual language model (GigaBERT) to study these two distant languages as well as zero-short transfer learning on the information extraction tasks. Our GigaBERT model can outperform mBERT and XLM-R-base on NER, POS and ARL tasks, with regarding to the per-language and/or zero-transfer performance. We make our pre-trained models publicly available at this https URL to facilitate the research of this field.

研究の動機と目的

  • 多言語事前学習モデルが、言語理解タスクでは優れた結果を示す一方で、依然として未開拓であるアラビア語情報抽出(IE)タスクにおける性能を調査すること。
  • 特にゼロショット設定において、英語からアラビア語へのクロスリンガル転移能力を評価すること。
  • 情報抽出タスクに特化した、高性能で公開可能なアラビア語-英語事前学習モデルの開発およびリリースすること。
  • 名前付きエンティティ認識(NER)、品詞タグ付け(POS)、アーギュメントロールラベル付け(ARL)、関係抽出(RE)の各タスクにおいて、GigaBERTの既存モデル(mBERTおよびXLM-R-base)との有効性を比較すること。

提案手法

  • アラビア語ギガワードコーパスの大規模なコーパスを用いて、アラビア語固有の表現学習を強化する二言語言語モデル(GigaBERT)を事前学習すること。
  • アラビア語という変形豊富な言語の文脈的依存関係を捉えるために、事前学習中にマスク言語モデルの目的関数を活用すること。
  • 英語データでの微調整を行わずに、下流のアラビア語IEタスクに微調整することで、ゼロショット転移性能を評価すること。
  • 名前付きエンティティ認識(NER)、品詞タグ付け(POS)、アーギュメントロールラベル付け(ARL)、関係抽出(RE)の複数のアラビア語IEベンチマークにおいて、GigaBERTの性能をmBERTおよびXLM-R-baseと比較すること。
  • 事前学習済みのGigaBERTモデルを公開することで、アラビア語NLP分野における今後の研究を支援すること。

実験結果

リサーチクエスチョン

  • RQ1GigaBERTは、NER、POS、ARLといったアラビア語情報抽出タスクにおいて、mBERTおよびXLM-R-baseと比較してどのように性能を発揮するか?
  • RQ2英語からアラビア語へのゼロショットクロスリンガル転移は、アラビア語IEタスクの性能向上にどの程度寄与するか?
  • RQ3大規模なアラビア語単語言語コーパス(ギガワード)で事前学習することで、多言語モデルに比べてアラビア語IEタスクの性能が向上するか?
  • RQ4アラビア語IEタスクにおいて、低リソースまたはゼロショット設定でのGigaBERTの相対的な有効性はいかほどか?

主な発見

  • GigaBERTは、言語別およびゼロショット転移設定の両方において、名前付きエンティティ認識(NER)でmBERTおよびXLM-R-baseを上回った。
  • GigaBERTは、特にゼロショット状況において、品詞タグ付け(POS)タスクでmBERTおよびXLM-R-baseを上回る優れた性能を示した。
  • GigaBERTは、アーギュメントロールラベル付け(ARL)タスクでも強力な性能を発揮し、微調整済みおよびゼロショット転移の両設定でmBERTおよびXLM-R-baseを上回った。
  • モデルは顕著なクロスリンガル転移能力を示しており、英語データでの微調整なしに、アラビア語単語言語コーパスで事前学習することで、下流のIEタスクの性能が向上することが示された。
  • GigaBERTのリリースにより、特に情報抽出タスクを対象とした、アラビア語NLP分野における新たな公開ベンチマークが提供された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。