[论文解读] Deep Learning Models for Multilingual Hate Speech Detection
本论文对跨越 9 种语言、使用 16 个数据集的仇恨言论检测进行了大规模的多语言分析,比较了 LASER+LR、翻译+BERT、mBERT 和 CNN-GRU,并提出了基于语言资源的最佳模型目录。研究发现 LASER+LR 在低资源设置下表现卓越,而在数据增多时,基于 BERT 的模型占据主导地位,零样本迁移在若干语言中也同样有效。
Hate speech detection is a challenging problem with most of the datasets available in only one language: English. In this paper, we conduct a large scale analysis of multilingual hate speech in 9 languages from 16 different sources. We observe that in low resource setting, simple models such as LASER embedding with logistic regression performs the best, while in high resource setting BERT based models perform better. In case of zero-shot classification, languages such as Italian and Portuguese achieve good results. Our proposed framework could be used as an efficient solution for low-resource languages. These models could also act as good baselines for future multilingual hate speech detection tasks. We have made our code and experimental settings public for other researchers at https://github.com/punyajoy/DE-LIMIT.
研究动机与目标
- 通过利用来自 9 种语言和 16 个来源的多语言数据集,推动超越英语的可扩展仇恨言论检测。
提出的方法
- 使用 LASER 句子嵌入和 MUSE 词嵌入构建多语言模型。
- 比较四种模型管道:MUSE+CNN-GRU、 Translation+BERT、 LASER+LR 和 mBERT。
- 使用 Google 翻译将非英语数据翻译为英语,以进行基线比较。
- 在单语言和多语言(跨语言/零样本)设置下进行评估,主指标为宏F1。
- 提供一个实用目录,按语言在低资源与高资源情景下推荐使用的模型。
实验结果
研究问题
- RQ1不同多语言模型在数据可用性各异的语言中的表现如何?
- RQ2在低资源语言中,零样本多语言迁移对仇恨言论检测是否有效?
- RQ3在多语言设置中,哪种模型配置在资源使用和性能之间提供最佳折衷?
- RQ4基于翻译的方法能否与原生多语言模型在仇恨言论检测中相匹配甚至超越?
- RQ5基于数据丰富程度,针对各语言出现了哪些特定的模型选择指南?
主要发现
- LASER+LR 在跨语言的低资源设置中占据主导地位。
- BERT 基于的模型(特别是 Translation+BERT 和 mBERT)在有更多训练数据时表现最佳。
- 将数据翻译为英语再使用英语 BERT 在若干语言中取得有竞争力的结果。
- 在多语言/零样本设置下,mBERT 与 LASER+LR 在各语言中呈现互补优势。
- 一个实用目录(表 5)按语言给出低资源与高资源情景下的最佳模型。
- 零样本葡萄牙语示例:LASER+LR 达到 0.6567,而有完整数据时葡萄牙语达到 0.6941。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。