QUICK REVIEW

[論文レビュー] ARBERT & MARBERT: Deep Bidirectional Transformers for Arabic.

Muhammad Abdul-Mageed, AbdelRahim Elmadany|arXiv (Cornell University)|Dec 27, 2020

Natural Language Processing Techniques参考文献 65被引用数 138

ひとこと要約

本稿では、多様なアラビア語データセット（SNSや複数のアラビア語方言を含む）を大規模に事前学習した、ARBERTおよびMARBERTの2つの深層双方向トランスフォーマー基盤の言語モデルを紹介する。これにより、多言語および低リソースなアラビア語NLPタスクにおける性能が向上する。著者らはまた、6つのタスククラスタに分類された42のデータセットを含む、ARLUEと呼ばれる新しいベンチマークを提示する。同モデルは、XLM-R Largeよりも3.4倍小さいにもかかわらず、77.40という新しいSOTAスコアを達成し、ARLUEスコアで優れた性能を発揮した。

ABSTRACT

Pre-trained language models (LMs) are currently integral to many natural language processing systems. Although multilingual LMs were also introduced to serve many languages, these have limitations such as being costly at inference time and the size and diversity of non-English data involved in their pre-training. We remedy these issues for a collection of diverse Arabic varieties by introducing two powerful deep bidirectional transformer-based models, ARBERT and MARBERT. To evaluate our models, we also introduce ARLUE, a new benchmark for multi-dialectal Arabic language understanding evaluation. ARLUE is built using 42 datasets targeting six different task clusters, allowing us to offer a series of standardized experiments under rich conditions. When fine-tuned on ARLUE, our models collectively achieve new state-of-the-art results across the majority of tasks (37 out of 48 classification tasks, on the 42 datasets). Our best model acquires the highest ARLUE score (77.40) across all six task clusters, outperforming all other models including XLM-R Large (~ 3.4 x larger size). Our models are publicly available at https://github.com/UBC-NLP/marbert and ARLUE will be released through the same repository.

研究の動機と目的

既存の多言語および単一言語の言語モデルがアラビア語処理において抱える課題（方言やSNS言語の処理が不十分であること、推論コストが高くなること）を是正すること。
多様な言語的コミュニティ（標準でない方言を含む）を支援する、効率的かつ高性能なアラビア語言語モデルを開発すること。
タスクやモデル間の意味のある比較を可能にする、標準化され包括的なアラビア語NLP評価のためのベンチマークを構築すること。
中型のアラビア語固有モデルが、XLM-R Largeのような大規模な多言語モデルよりも、正確性とエネルギー効率の両面で優れた性能を発揮できることを実証すること。

提案手法

現代標準アラビア語（MSA）および複数のアラビア語方言を含む、大規模かつ多様なアラビア語テキストデータを用いて、ARBERTおよびMARBERTを事前学習する。
トランスファー学習を用いて、幅広い下流NLPタスクでモデルを微調整する。
感情分析、SNS意味解析、トピック分類、方言意図分類、方言認識、命名エンティティ認識の6つのテーマ的タスククラスタに分類された、42のデータセットを含むARLUEという新しいベンチマークを設計・構築する。
すべての42のデータセットにおいて、データ分割と評価プロトコルを標準化することで、再現性と公準な比較を確保する。
すべてのクラスタにわたる性能を要約する1つのARLUEスコアを計算するために、マルチタスク評価戦略を採用する。
アラビア語の変形的複雑さと書記文字の多様性に適応した、自己教師付き事前学習（マスク言語モデルと次文予測）を活用する。

実験結果

リサーチクエスチョン

RQ1アラビア語固有の言語モデルは、XLM-Rのような一般的な多言語モデルよりも性能が高く、かつはるかに小型かつエネルギー効率に優れた状態で、アラビア語NLPタスクを遂行できるか？
RQ2SNSなど非標準的なアラビア語テキスト（例：SNS）を事前学習に用いることで、方言的・非公式な言語理解の性能がどの程度向上するか？
RQ3ARLUEのような標準化されたマルチデータセットベンチマークは、アラビア語NLPモデル評価の信頼性と比較可能性をどのように向上させるか？
RQ4中型のアラビア語固有モデルは、多様なアラビア語NLPタスクにおいて、大規模な多言語モデルを上回る性能を発揮できるか？
RQ5現在のSOTAアラビア語モデル（例：AraBERT）は、方言的・SNSテキストに対してどの程度の性能を発揮するか、またその限界は何か？

主な発見

ARBERTおよびMARBERTは、77.40というARLUEスコアで、XLM-R Large（3.4倍大きい）を含むすべての他のモデルを上回る、新しいSOTAを達成した。
ARLUEのテスト分割において、MARBERT（v2）は6つのタスククラスタすべてで最高スコア77.40を記録し、平均して77.87％の正答率と76.94％のF1スコアを達成した。
MARBERT（v2）はARLUESentiタスクで93.30％のF1スコアを達成し、mBERT（79.02％F1）およびXLM-R（93.18％F1）を上回り、感情分析分野での優れた性能を示した。
ARLUEQAタスクでは、MARBERT（v2）が40.47％のExact Matchと62.09％のF1スコアを達成し、AraBERT（36.29％EM、57.81％F1）を著しく上回り、質問応答分野での優れた性能を示した。
ARLUEの42のデータセットに含まれる48の個別分類タスクのうち37でSOTA結果を達成し、広範な有効性を示した。
MARBERT（v2）はARLUEDia-Rタスクで90.04％のExact Matchと89.67％のF1スコアを達成し、アラビア語NLPにおける主要な課題の一つである方言認識分野でも優れた性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。