QUICK REVIEW
[论文解读] Hate Speech Detection from Code-mixed Hindi-English Tweets Using Deep Learning Models
Kamble Satyajit, Aditya Joshi|arXiv (Cornell University)|Nov 13, 2018
Hate Speech and Cyberbullying Detection参考文献 13被引用 74
一句话总结
该论文开发了三种深度学习模型(CNN-1D、LSTM、BiLSTM)并使用领域特定嵌入来检测印地语-英语混合代码的推文中的仇恨言论,并在统计基线基础上实现约12%的F分数提升。
ABSTRACT
This paper reports an increment to the state-of-the-art in hate speech detection for English-Hindi code-mixed tweets. We compare three typical deep learning models using domain-specific embeddings. On experimenting with a benchmark dataset of English-Hindi code-mixed tweets, we observe that using domain-specific embeddings results in an improved representation of target groups, and an improved F-score.
研究动机与目标
- 在社交媒体语境中激发对印地语-英语混合推文中的仇恨言论检测的兴趣。
- 在一个常用数据集上评估深度学习架构与统计基线的对比。
- 证明领域特定的词嵌入可以改善对仇恨言论中目标群体的表示。
- 比较CNN-1D、LSTM和BiLSTM以识别表现最好的模型。
提出的方法
- 从大型代码混合推文语料库使用 gensim Word2Vec 训练领域特定词嵌入。
- 实现三种深度学习模型(CNN-1D、LSTM、BiLSTM),结合领域特定嵌入进行二元仇恨言论分类。
- 在CNN-1D中使用全局最大池化和dropout,在LSTM/BiLSTM后进行序列处理再经过全局最大池化。
- 在Bohra 等人(2018)的数据集上进行 10-fold 交叉验证以训练和评估模型。
- 为公平比较重实现基线统计方法(SVM、随机森林)。
实验结果
研究问题
- RQ1深度学习模型结合领域特定嵌入是否能在印地语-英语混合仇恨言论数据集上超越传统统计方法?
- RQ2哪种神经网络架构(CNN-1D、LSTM、BiLSTM)能更好地捕捉混合代码中的语义?
- RQ3领域特定嵌入是否比通用嵌入更能代表少数群体及仇恨表达?
- RQ4在目标数据集上,深度学习模型在精确度、召回率、F分数和准确率方面对统计基线的提升是多少?
主要发现
| P (%) | R (%) | F (%) | A (%) | |
|---|---|---|---|---|
| Bohra et al. (2018) (SVM) | 74.94 | 63.15 | 68.54 | 71.03 (71.7*) |
| Bohra et al. (2018) (Random Forest) | 62.43 | 58.88 | 60.60 | 65.78 (66.7*) |
| CNN-1D | 83.34 | 78.51 | 80.85 | 82.62 |
| LSTM | 81.11 | 75.80 | 78.36 | 80.21 |
| BiLSTM | 82.04 | 78.90 | 80.43 | 81.48 |
- CNN-1D 以最高的 F-score(80.85%)和准确率(82.62%)实现最佳性能。
- 深度学习模型在 F-score、精确度和召回率方面总体优于统计基线。
- 领域特定嵌入比通用嵌入更好地表示少数群体及仇恨表达的相似性。
- BiLSTM 的召回率略高于 CNN-1D,而 CNN-1D 提供更高的精确度。
- 领域特定嵌入包含通用嵌入中不存在的粗口词,提升了对仇恨言论的语义表示。
- 相对于统计基线,F-score 的提升约为 12%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。