Skip to main content
QUICK REVIEW

[论文解读] Arabic Offensive Language on Twitter: Analysis and Experiments

Hamdy Mubarak, Ammar Rashed|arXiv (Cornell University)|Apr 5, 2020
Hate Speech and Cyberbullying Detection参考文献 39被引用 87
一句话总结

作者构建了最大的带标签的阿拉伯语攻击性推文语料库,分析语言学与人口统计模式,并评估多种分类器,发现基于 AraBERT 的模型取得了顶级性能。

ABSTRACT

Detecting offensive language on Twitter has many applications ranging from detecting/predicting bullying to measuring polarization. In this paper, we focus on building a large Arabic offensive tweet dataset. We introduce a method for building a dataset that is not biased by topic, dialect, or target. We produce the largest Arabic dataset to date with special tags for vulgarity and hate speech. We thoroughly analyze the dataset to determine which topics, dialects, and gender are most associated with offensive tweets and how Arabic speakers use offensive language. Lastly, we conduct many experiments to produce strong results (F1 = 83.2) on the dataset using SOTA techniques.

研究动机与目标

  • 从 Twitter 构建一个大型、不偏向方言和主题的阿拉伯语攻击性语言数据集。
  • 将推文注释为攻击性、粗俗、仇恨言论,或干净,并分析人口统计和语言学模式。
  • 评估一系列表示与分类器,以建立强有力的阿拉伯语攻击性语言检测基线。

提出的方法

  • 通过呼格模式的无种子采样高效从阿拉伯语推特收集攻击性推文。
  • 对1万条推文进行人工注释为攻击性、粗俗、仇恨言论或干净,具有高互标一致性(Fleiss’s kappa ~0.92–0.97)。
  • 包括分词(Farasa)预处理、阿拉伯语文本规范化以及去除噪声标记。
  • 在词汇特征、静态与上下文嵌入(fastText、AraVec、Mazajak、BERT、AraBERT)上进行实验。
  • 使用 SVM、fastText 分类器,以及微调的变换模型(BERT、AraBERT)。
  • 采用5折交叉验证进行评估;跨模型比较。

实验结果

研究问题

  • RQ1是否可以从 Twitter 构建一个大规模、方言和主题不偏倚的阿拉伯语攻击性语言数据集?
  • RQ2阿拉伯语攻击性语言在 Twitter 数据中的语言学和人口统计特征是什么?
  • RQ3哪种表示与分类方法在阿拉伯语攻击性语言检测中能提供最佳性能?

主要发现

模型 / 分类器精确度召回率F1
词汇特征 + SVM68.535.346.6
预训练静态嵌入 + SVM (fastText)76.743.555.5
预训练静态嵌入 + SVM (AraVec)85.569.276.4
在我们数据上训练的嵌入 + SVM (Mazajak)88.672.479.7
在我们数据上训练的嵌入 + fastText (fastText)82.168.174.4
上下文嵌入 + BERT base-multilingual78.374.076.0
上下文嵌入 + AraBERT84.682.483.2
  • 数据集包含10,000条推文,其中1,915条攻击性推文(19%),包括225条粗俗和506条仇恨言论,8,085条干净推文。
  • 攻击性语言主题以体育和政治为主;粗俗语言压倒性地使用埃及方言,71%的粗俗推文是埃及阿拉伯语,13%是海湾阿拉伯语。
  • 男性作者在攻击性语言使用中占主导(女性占比约14%总体;6%粗俗;9%仇恨言论)。
  • AraBERT(阿拉伯语特定的 Transformer)在所测试的模型中实现最佳整体检测性能(精确度84.6%,召回82.4%,F1 83.2%)。
  • Mazajak 嵌入 + SVM 表现非常强劲(精确度88.6%,召回72.4%,F1 79.7%),在某些设置下甚至超越 BERT。
  • 上下文嵌入通常优于静态词汇特征,AraBERT 优于基于 BERT 的基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。