QUICK REVIEW

[論文レビュー] Arabic Offensive Language on Twitter: Analysis and Experiments

Hamdy Mubarak, Ammar Rashed|arXiv (Cornell University)|Apr 5, 2020

Hate Speech and Cyberbullying Detection参考文献 39被引用数 87

ひとこと要約

著者らは、アラビア語攻撃的ツイートの最大規模のラベル付きコーパスを構築し、言語的・人口統計的パターンを分析し、複数の分類器を評価して、AraBERTベースのモデルが最高の性能を達成することを発見しました。

ABSTRACT

Detecting offensive language on Twitter has many applications ranging from detecting/predicting bullying to measuring polarization. In this paper, we focus on building a large Arabic offensive tweet dataset. We introduce a method for building a dataset that is not biased by topic, dialect, or target. We produce the largest Arabic dataset to date with special tags for vulgarity and hate speech. We thoroughly analyze the dataset to determine which topics, dialects, and gender are most associated with offensive tweets and how Arabic speakers use offensive language. Lastly, we conduct many experiments to produce strong results (F1 = 83.2) on the dataset using SOTA techniques.

研究の動機と目的

Twitterから、方言と話題に偏らない大規模なアラビア語攻撃言語データセットを構築する。
ツイートを攻撃的、卑語、ヘイトスピーチ、またはクリーンに注釈し、人口統計学的および言語的パターンを分析する。
さまざまな表現方法と分類器を評価して、アラビア語の攻撃言語検出における強力なベースラインを確立する。

提案手法

アラビア語ツイッターから攻撃的なツイートを効率的に収集するため、呼格パターンによるシードレスサンプリング。
Fleissのκ約0.92–0.97の高いアノテータ間一致を伴い、10,000ツイートを攻撃的、卑語、ヘイトスピーチ、またはクリーンに手動で注釈。
Farasaによるトークン化を含む前処理、アラビア語テキストの正規化、ノイズとなるトークンの除去。
語彙特徴・静的および文脈埋め込み（fastText、AraVec、Mazajak、BERT、AraBERT）の実験。
SVM、fastText分類器、および微調整済みトランスフォーマーモデル（BERT、AraBERT）による分類。
評価のための5分割交差検証；モデル間比較。

実験結果

リサーチクエスチョン

RQ1Twitterから、方言・話題に偏らない大規模なアラビア語攻撃言語データセットを構築できるか？
RQ2Twitterデータにおけるアラビア語攻撃言語の言語的および人口統計的特徴は何か？
RQ3アラビア語攻撃言語検出に最も適した表現と分類アプローチはどれか？

主な発見

Model / Classifier	Precision	Recall	F1
Lexical Features + SVM	68.5	35.3	46.6
Pre-trained static embeddings + SVM (fastText)	76.7	43.5	55.5
Pre-trained static embeddings + SVM (AraVec)	85.5	69.2	76.4
Embeddings trained on our data + SVM (Mazajak)	88.6	72.4	79.7
Embeddings trained on our data + fastText (fastText)	82.1	68.1	74.4
Contextualized embeddings + BERT base-multilingual	78.3	74.0	76.0
Contextualized embeddings + AraBERT	84.6	82.4	83.2

データセットには10,000ツイートが含まれ、1,915件の攻撃的ツイート（19%）、うち卑語225件、ヘイトスピーチ506件、クリーンは8,085件。
攻撃的言語のトピックはスポーツと政治に支配されている；卑語は圧倒的にエジプト方言を使用しており、卑語ツイートの71%がエジプトアラビア語、13%が湾岸アラビア語。
男性著者が攻撃的言語の使用を支配（女性比率約14%；卑語6%；ヘイトスピーチ9%）
AraBERT（アラビア語特化トランスフォーマー）は、評価したモデルの中で最良の全体検出性能を達成（84.6% precision、82.4% recall、83.2% F1）。
Mazajakの埋込みとSVMは非常に高い性能を示し（88.6% precision、72.4% recall、79.7% F1）、一部の設定ではBERTよりも上回る。
文脈埋込みは一般に静的語彙特徴を上回り、AraBERTがBERTベースのベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。