Skip to main content
QUICK REVIEW

[论文解读] Hate Speech Detection from Code-mixed Hindi-English Tweets Using Deep Learning Models

Kamble Satyajit, Aditya Joshi|arXiv (Cornell University)|Nov 13, 2018
Hate Speech and Cyberbullying Detection参考文献 13被引用 74
一句话总结

该论文开发了三种深度学习模型(CNN-1D、LSTM、BiLSTM)并使用领域特定嵌入来检测印地语-英语混合代码的推文中的仇恨言论,并在统计基线基础上实现约12%的F分数提升。

ABSTRACT

This paper reports an increment to the state-of-the-art in hate speech detection for English-Hindi code-mixed tweets. We compare three typical deep learning models using domain-specific embeddings. On experimenting with a benchmark dataset of English-Hindi code-mixed tweets, we observe that using domain-specific embeddings results in an improved representation of target groups, and an improved F-score.

研究动机与目标

  • 在社交媒体语境中激发对印地语-英语混合推文中的仇恨言论检测的兴趣。
  • 在一个常用数据集上评估深度学习架构与统计基线的对比。
  • 证明领域特定的词嵌入可以改善对仇恨言论中目标群体的表示。
  • 比较CNN-1D、LSTM和BiLSTM以识别表现最好的模型。

提出的方法

  • 从大型代码混合推文语料库使用 gensim Word2Vec 训练领域特定词嵌入。
  • 实现三种深度学习模型(CNN-1D、LSTM、BiLSTM),结合领域特定嵌入进行二元仇恨言论分类。
  • 在CNN-1D中使用全局最大池化和dropout,在LSTM/BiLSTM后进行序列处理再经过全局最大池化。
  • 在Bohra 等人(2018)的数据集上进行 10-fold 交叉验证以训练和评估模型。
  • 为公平比较重实现基线统计方法(SVM、随机森林)。

实验结果

研究问题

  • RQ1深度学习模型结合领域特定嵌入是否能在印地语-英语混合仇恨言论数据集上超越传统统计方法?
  • RQ2哪种神经网络架构(CNN-1D、LSTM、BiLSTM)能更好地捕捉混合代码中的语义?
  • RQ3领域特定嵌入是否比通用嵌入更能代表少数群体及仇恨表达?
  • RQ4在目标数据集上,深度学习模型在精确度、召回率、F分数和准确率方面对统计基线的提升是多少?

主要发现

P (%)R (%)F (%)A (%)
Bohra et al. (2018) (SVM)74.9463.1568.5471.03 (71.7*)
Bohra et al. (2018) (Random Forest)62.4358.8860.6065.78 (66.7*)
CNN-1D83.3478.5180.8582.62
LSTM81.1175.8078.3680.21
BiLSTM82.0478.9080.4381.48
  • CNN-1D 以最高的 F-score(80.85%)和准确率(82.62%)实现最佳性能。
  • 深度学习模型在 F-score、精确度和召回率方面总体优于统计基线。
  • 领域特定嵌入比通用嵌入更好地表示少数群体及仇恨表达的相似性。
  • BiLSTM 的召回率略高于 CNN-1D,而 CNN-1D 提供更高的精确度。
  • 领域特定嵌入包含通用嵌入中不存在的粗口词,提升了对仇恨言论的语义表示。
  • 相对于统计基线,F-score 的提升约为 12%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。