[论文解读] Large-Scale Hate Speech Detection with Cross-Domain Transfer
本文在英语和土耳其语中跨五个仇恨领域构建 100k-tweet 数据集,显示 Transformer 模型在大规模仇恨言论检测中优于基线,并分析跨-domain 转移以提升跨领域泛化能力。
The performance of hate speech detection models relies on the datasets on which the models are trained. Existing datasets are mostly prepared with a limited number of instances or hate domains that define hate topics. This hinders large-scale analysis and transfer learning with respect to hate domains. In this study, we construct large-scale tweet datasets for hate speech detection in English and a low-resource language, Turkish, consisting of human-labeled 100k tweets per each. Our datasets are designed to have equal number of tweets distributed over five domains. The experimental results supported by statistical tests show that Transformer-based language models outperform conventional bag-of-words and neural models by at least 5% in English and 10% in Turkish for large-scale hate speech detection. The performance is also scalable to different training sizes, such that 98% of performance in English, and 97% in Turkish, are recovered when 20% of training instances are used. We further examine the generalization ability of cross-domain transfer among hate domains. We show that 96% of the performance of a target domain in average is recovered by other domains for English, and 92% for Turkish. Gender and religion are more successful to generalize to other domains, while sports fail most.
研究动机与目标
- 在英语和土耳其语中构建大规模、域平衡的仇恨言论数据集(每种语言 100k 条推文,覆盖五个仇恨领域)。
- 评估尖端模型在大规模仇恨言论检测上的可扩展性。
- 研究仇恨领域之间的跨领域转移以评估泛化能力。
提出的方法
- 按宗教、性别、种族、政治和体育领域在每种语言中创建 100k-tweet 数据集,保持平衡。
- 使用五名评注者对推文标注为仇恨、冒犯或正常,并报告 Krippendorff α。
- 将基线方法(BOW、CNN、LSTM)与基于 Transformer 的语言模型(BERT 系列、RoBERTa 系列、多语言模型)进行比较。
- 对多语言及语言特定的 Transformer(BERT、BERTweet、ConvBERT、Megatron、RoBERTa、BERTurk、ConvBERTurk、mBERT、XLM-R)进行微调,使用一致的超参数(批次大小 32,学习率 1e-5,5 次训练周期,最大长度 128)。
- 通过在源领域进行微调并在目标领域评估,使用恢复率和衰减率来评估跨域转移。
实验结果
研究问题
- RQ1大型 Transformer 模型在英语和土耳其语对多领域的仇恨言论检测中表现如何?
- RQ2多语言 Transformer 在英语和土耳其语的仇恨言论检测中是否与语言特定模型具备竞争力?
- RQ3模型在通过跨域转移对未见仇恨领域的泛化能力上能达到何种程度?
主要发现
| 模型 | EN_精确度 | EN_召回率 | EN_F1 | TR_精确度 | TR_召回率 | TR_F1 |
|---|---|---|---|---|---|---|
| BOW | 0.777 | 0.796 | 0.779 | 0.707 | 0.710 | 0.706 |
| CNN | 0.779 | 0.796 | 0.782 | 0.676 | 0.679 | 0.675 |
| LSTM | 0.787 | 0.798 | 0.790 | 0.689 | 0.688 | 0.686 |
| BERT | 0.815 | 0.817 | 0.816 | - | - | - |
| BERTweet | 0.825 | 0.829 | 0.826 | - | - | - |
| ConvBERT | 0.823 | 0.825 | 0.823 | - | - | - |
| Megatron | 0.831 | 0.830 | 0.830 | - | - | - |
| RoBERTa | 0.822 | 0.826 | 0.823 | - | - | - |
| mBERT | 0.817 | 0.818 | 0.818 | 0.757 | 0.752 | 0.753 |
| XLM-R | 0.823 | 0.826 | 0.824 | 0.770 | 0.767 | 0.768 |
| BERTurk | - | - | - | 0.778 | 0.777 | 0.777 |
| ConvBERTurk | - | - | - | 0.781 | 0.782 | 0.782 |
| ConvBERTurk (Turkish) | - | - | - | 0.781 | 0.782 | 0.782 |
- 基于 Transformer 的模型在英语和土耳其语的多类别仇恨言论检测中,明显优于词袋模型与简单神经模型,大约分别提高约 5% 和 10%。
- Megatron 在英语模型中达到最高分,而 ConvBERTurk 在土耳其语中取得最高分;多语言模型(mBERT、XLM-R)的表现与语言特定模型相近。
- 在跨语言方面,完整数据集下的 performance 以 98%(英语)和 97%(土耳其语)从仅 20% 的训练数据恢复。
- 跨域转移在英语上平均恢复目标域性能的 96%,在土耳其语上恢复 92%;性别和宗教领域的转移比体育领域更容易,性别的跨域可复用性较弱。
- 移除推文特定组件(URL、标签、表情符号)对两种语言的性能影响很小。
- 数据规模的扩大提升了性能,仇恨类别的准确度从更多带有仇恨标注的样本中获益最大;在可比数据规模下,英语仇恨检测仍比土耳其语更困难。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。