Skip to main content
QUICK REVIEW

[论文解读] Offensive Language Identification in Greek

Zeses Pitenis, Marcos Zampieri|arXiv (Cornell University)|Mar 16, 2020
Hate Speech and Cyberbullying Detection参考文献 29被引用 78
一句话总结

本论文提出 OGTD,首个希腊语带注释的仇恨语言识别数据集,并比较了多种经典与深度学习模型,其中带注意力的 LSTM/GRU 在 OGTD v1.0 上实现了约 0.89 的宏平均 F1。

ABSTRACT

As offensive language has become a rising issue for online communities and social media platforms, researchers have been investigating ways of coping with abusive content and developing systems to detect its different types: cyberbullying, hate speech, aggression, etc. With a few notable exceptions, most research on this topic so far has dealt with English. This is mostly due to the availability of language resources for English. To address this shortcoming, this paper presents the first Greek annotated dataset for offensive language identification: the Offensive Greek Tweet Dataset (OGTD). OGTD is a manually annotated dataset containing 4,779 posts from Twitter annotated as offensive and not offensive. Along with a detailed description of the dataset, we evaluate several computational models trained and tested on this data.

研究动机与目标

  • 介绍 OGTD,首个希腊语标注的 Twitter 仇恨语言检测数据集。
  • 提供详细的数据集描述、标注指南和评注者一致性。
  • 在 OGTD 上基准测试一系列经典 ML 和深度学习模型,以建立基线并确定有效方法。
  • 探索特征集,包括 TF-IDF 单字/双字特征和希腊语的语言特征(词性、依存标签)。
  • 讨论对跨语言和希腊语 NLP 资源开发的影响,以及未来数据集改进的方向。

提出的方法

  • 通过使用与希腊相关的关键词和脏话从 Twitter API 收集希腊语推文,以构建多样化的仇恨语言语料库。
  • 通过小写处理和非重音归一化来预处理数据;删除 URL、表情符号和 @USER 提及;去重推文。
  • 使用希腊语指南对 4,779 条推文进行 Offensive/Not Offensive/Spam 标注;计算 Cohen’s kappa 以评估标注者间一致性。
  • 使用 TF-IDF 单字特征训练和评估多种分类器(线性 SVM、RBF SVM、SGDC、多项式 NB、伯努利 NB)。
  • 将语言学特征(词性标签、依存关系)和希腊语词嵌入用于深度学习模型;并与多语言 BERT 进行比较。
  • 深度学习模型包括聚合 GRU、带注意力的堆叠式 LSTM、带注意力的 LSTM/GRU、2D 卷积、带胶囊的 GRU、带注意力的 LSTM+胶囊,以及基于 BERT 的方法。

实验结果

研究问题

  • RQ1希腊语仇恨语言数据集能否创建并以可靠的评注者一致性进行标注?
  • RQ2哪些特征集(TF-IDF 单字与双字、词性/依存、语义嵌入)在希腊语仇恨语言检测中能取得最佳性能?
  • RQ3经典 ML 模型与深度学习模型在 OGTD 任务上的比较如何?
  • RQ4使用希腊语词嵌入与多语言 BERT 对该任务的影响?
  • RQ5如何将 OGTD 扩展到 v2.0,并用于跨语言或像 OffensEval 2020 这样的共享任务?

主要发现

  • OGTD v1.0 包含 4,779 条推文,约 29% 为仇恨内容。
  • 线性 SVM 与 SGDC 在经典模型中取得较强的 Macro-F1,线性 SVM 往往略优。
  • 对经典模型而言,TF-IDF 单字特征通常优于双字特征;词性(POS)与依存特征对线性 SVM 有边际提升,但对其他模型存在负效应。
  • 使用希腊语词嵌入的深度学习模型优于经典模型;带注意力的 LSTM/GRU 取得最佳 macro-F1(约 0.89),而多语言 BERT 的表现不如以希腊语词嵌入为基础的模型。
  • 基于 BERT 的多语言模型在本任务上不如希腊语词嵌入的效果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。