QUICK REVIEW

[論文レビュー] Pre-Training BERT on Arabic Tweets: Practical Considerations

Ahmed Abdelalí, Sabit Hassan|arXiv (Cornell University)|Feb 21, 2021

Natural Language Processing Techniques参考文献 24被引用数 83

ひとこと要約

本論文はアラビア語ツイートからのゼロからのBERTモデルの訓練を分析し、データソース、分割戦略、訓練レジームを比較し、複数のタスクにわたる詳細な評価とともにQARiBチェックポイントを公開する。

ABSTRACT

Pretraining Bidirectional Encoder Representations from Transformers (BERT) for downstream NLP tasks is a non-trival task. We pretrained 5 BERT models that differ in the size of their training sets, mixture of formal and informal Arabic, and linguistic preprocessing. All are intended to support Arabic dialects and social media. The experiments highlight the centrality of data diversity and the efficacy of linguistically aware segmentation. They also highlight that more data or more training step do not necessitate better models. Our new models achieve new state-of-the-art results on several downstream tasks. The resulting models are released to the community under the name QARiB.

研究の動機と目的

ツイート領域でゼロからの事前学習がアラビア語BERTに適用されるべき時点を評価する。
データ量、データの混合（公式語と非公式語）、および分割が性能にどのように影響するかを決定する。
アラビア語データにおける言語特異的トークン化と言語非依存トークン化アプローチを評価する。
複数のNLPタスクにわたりQARiBモデルを既存のアラビア語BERT系と比較する。
研究と下流のファインチューニングを加速するための事前学習済みチェックポイントを提供する。

提案手法

Farasaあり/なしを含むさまざまなデータソースとデータサイズ（10M–330Mツイート）を用いて、ゼロから5つのQARiBモデルを訓練する。
言語非依存の分割を用いたBPEベースのトークン化を採用し、Farasa分割バリアントと比較する。
トレーニング時間を短縮するため、15%マスキングの単一タスク目的（マスクド言語モデル）でTPU上で事前学習する。
NER、感情、攻撃的言語検出、方言識別、感情分析などのタスク群で、タスク固有のデータセットを用いてモデルを評価する。
対応するチェックポイントで、3つのアラビア語・多言語ベースライン（AraBERTv0.1/v1、ArabicBERT、mBERT）と比較する。

実験結果

リサーチクエスチョン

RQ1ツイッターデータ用の効果的なアラビア語BERTモデルを構築するには、どの程度のデータ規模が必要か？
RQ2公式アラビア語と非公式ツイートを混ぜることは、ツイートのみの場合と比べて下流の性能を改善するか？
RQ3言語特異的な分割（例：Farasa）は、アラビア語ツイートのBPEのみのトークン化と比べて意味のある改善をもたらすか？
RQ4データがドメイン内（ツイート）である場合、語彙カバレッジを考慮して、ゼロからの事前学習は既存モデルのファインチューニングより効果的か？
RQ5損失だけに頼らず、さまざまなタスクに対して最適なトレーニングチェックポイントをどのように決定すべきか？

主な発見

Model	AJGT	Emotion	NER	Offensive	QADI
QARiB10	92.2	43.6	61.3	88.5	60.1
QARiB25	93.3	44.7	63.8	90.0	60.7
QARiB25_mix	93.3	46.8	64.4	89.5	60.9
QARiB25_mix_far	93.3	45.2	69.1	89.0	61.3
QARiB60_mix	93.3	46.1	63.0	90.0	61.4
AraBERTv0.1	90.8	43.9	65.0	88.1	59.9
AraBERTv1	93.6	42.4	66.6	89.0	59.9
ArabicBERT	83.3	41.7	64.0	88.2	61.7
mBERT	86.6	27.9	49.4	83.1	57.8

データを10Mから25Mツイートへ増やすと性能が向上するが、25Mを超えると一部のケースで収益率が低下する。
ツイートと公式アラビア語データを混ぜる方が、ツイートのみの訓練より下流のツイートタスクで上回る。
言語的に動機づけられた分割（Farasa）は、いくつかのタスクで大きな利得を生み、AraBERT系の結果と一致する。
チェックポイントは重要だ；より多くの訓練ステップが必ずしも良い結果を保証するわけではなく、複数タスクにまたがる評価が最良のチェックポイントを特定するのに役立つ。
混合データとFarasa分割を組み合わせたQARiBモデル（例：QARiB25_mix_far）は強力な結果を達成し、複数のタスクでmBERTを上回ることが多く、AraBERTおよびArabicBERTと同等またはそれ以上の性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。