Skip to main content
QUICK REVIEW

[論文レビュー] AraBERT: Transformer-based Model for Arabic Language Understanding

Wissam Antoun, Fady Baly|arXiv (Cornell University)|Feb 28, 2020
Topic Modeling参考文献 47被引用数 617
ひとこと要約

AraBERTはアラビア語専用のBERT風モデルを事前学習し、さまざまな方言に跨る複数のアラビア語NLPタスク(感情分析、NER、QA)で最先端の結果を達成し、モデルを公開しています。

ABSTRACT

The Arabic language is a morphologically rich language with relatively few resources and a less explored syntax compared to English. Given these limitations, Arabic Natural Language Processing (NLP) tasks like Sentiment Analysis (SA), Named Entity Recognition (NER), and Question Answering (QA), have proven to be very challenging to tackle. Recently, with the surge of transformers based models, language-specific BERT based models have proven to be very efficient at language understanding, provided they are pre-trained on a very large corpus. Such models were able to set new standards and achieve state-of-the-art results for most NLP tasks. In this paper, we pre-trained BERT specifically for the Arabic language in the pursuit of achieving the same success that BERT did for the English language. The performance of AraBERT is compared to multilingual BERT from Google and other state-of-the-art approaches. The results showed that the newly developed AraBERT achieved state-of-the-art performance on most tested Arabic NLP tasks. The pretrained araBERT models are publicly available on https://github.com/aub-mind/arabert hoping to encourage research and applications for Arabic NLP.

研究の動機と目的

  • 資源の不足とアラビア語特有の形態素に起因する高性能言語モデルのギャップを動機づけ、解決する。
  • 大規模なアラビア語コーパスを用いて、アラビア語専用のBERTベースのモデル(AraBERT)を事前学習する。
  • MSAと方言アラビア語を含む多様な下流アラビア語NLPタスクでAraBERTを評価する。
  • さらなるアラビア語NLP研究と応用を促進するため、公開可能なAraBERTモデルを提供する。

提案手法

  • BERT-base構成を使用する(エンコーダ層12、隠れユニット768、注意ヘッド12)。
  • 大規模なアラビア語コーパス(約24GB、7000万文)に対して、全語 masking MLMとNSPの事前学習目的を適用する。
  • アラビア語特有の前処理を実装:Farasaで単語をセグメント化し、続いてSentencePieceの unigram トークナイザーを約60kトークンに訓練(セグメンテーションなしの64kバリアントも)。
  • シーケンス分類のファインチューニングは、[CLS]トークンとソフトマックス分類子を用いて AraBERT を微調整する。
  • NERではトークンレベルのIOB2タグ付けとして扱い、語ごとに最初のサブトークンのみをモデルに入力する。
  • QAではトークンレベルの分類子を用いて開始位置と終了位置を予測し、回答範囲を抽出する。

実験結果

リサーチクエスチョン

  • RQ1標準的なアラビア語NLPベンチマークで、単言語アラビア語BERTモデルは多言語BERTを上回るか?
  • RQ2アラビア語特有の前処理とトークナイゼーションは、タスク(SA、NER、QA)全体の性能にどう影響するか?
  • RQ3AraBERTは現代標準アラビア語と方言アラビア語の両方のデータセットで最先端の結果を達成できるか?
  • RQ4アラビア語の事前学習における語彙サイズとデータサイズのトレードオフは何か?

主な発見

TaskMetricPrev SOTAmBERTAraBERTv0.1/v1
SA (HARD)Acc.95.7*95.796.2 / 96.1
SA (ASTD)Acc.86.5*80.192.2 / 92.6
SA (ArSenTD-Lev)Acc.52.4*51.058.9 / 59.4
SA (AJGT)Acc.92.6**83.693.1 / 93.8
SA (LABR)Acc.87.5†83.085.9 / 86.7
NER (ANERcorp)macro-F181.778.484.2 / 81.9
NER (ANERcorp)Exact Match--34.2 / 30.1
QA (ARCD)macro-F1mBERT61.361.2 / 62.7
QA (ARCD)Sentence Match-93.0 / 92.0-
  • AraBERTは、複数のデータセットにわたり、ほとんどのアラビア語NLPタスクで多言語BERTおよび従来の最先端アプローチを上回る。
  • 約24GBのアラビア語テキストと64k語彙(mBERTの2kに対して)および全語マスキングによる事前学習が性能向上に寄与。
  • AraBERTv0.1(セグメーションなし)とAraBERTv1(セグメンテーション前処理)はタスクごとに異なる影響を示し、セグメンテーションはSAとQAで効果的だがNERではそうでない。
  • NER (ANERcorp)では、AraBERTv0.1が macro-F1 84.2 および Exact Match 34.2 を達成し、Bi-LSTM-CRF のベースラインおよび mBERT を上回る。
  • SAでは、HARD、ASTD、ArSenTD-Lev、AJGT、LABR の各データセットでAraBERT系がリードする精度を達成し、いくつかは従来のSOTAおよびmBERTを上回る。
  • QA (ARCD)では、AraBERTはmBERTよりmacro-F1とSentence Matchが改善され、回答範囲の予測と検索が向上していることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。