[论文解读] A Web of Hate: Tackling Hateful Speech in Online Social Spaces
本文提出一种社区驱动的方法,通过在自我认定为仇恨群体所产生文本上训练语言模型来检测仇恨言论,优于基于关键词的基线,并实现跨平台适用性。
Online social platforms are beset with hateful speech - content that expresses hatred for a person or group of people. Such content can frighten, intimidate, or silence platform users, and some of it can inspire other users to commit violence. Despite widespread recognition of the problems posed by such content, reliable solutions even for detecting hateful speech are lacking. In the present work, we establish why keyword-based methods are insufficient for detection. We then propose an approach to detecting hateful speech that uses content produced by self-identifying hateful communities as training data. Our approach bypasses the expensive annotation process often required to train keyword systems and performs well across several established platforms, making substantial improvements over current state-of-the-art approaches.
研究动机与目标
- 为平台运营者以实用、可操作的方式定义仇恨言论。
- 展示基于关键词的检测和注释驱动方法的局限性。
- 提出并验证基于社区的语言模型,训练数据来自仇恨社区。
- 展示所提方法在同一平台内及跨平台上的有效性。
提出的方法
- 确定目标群体(Black、Plus-size、Female),并从仇恨与支持子版块以及其他平台(Voat、网络论坛)收集数据。
- 使用带标签的 LLDA,在以 Reddit 为基线的基础上,从仇恨社区学习主题语言模型,并与基于关键词的数据进行比较。
- 在标准文本预处理后,使用 tf-idf unigram 特征训练分类器(朴素贝叶斯、支持向量机、逻辑回归)。
- 与随机数据和支持社区数据进行评估,以衡量精确度、召回率、F1 和科恩的 kappa。
- 通过将 Reddit 训练的模型应用于 Voat 和非 Reddit 论坛,测试跨平台泛化。
实验结果
研究问题
- RQ1基于社区定义的仇恨言论检测方法能否超越基于关键词的基线?
- RQ2从自我识别的仇恨社区学习的语言模型是否捕捉到跨目标群体的不同语言签名?
- RQ3在一个平台(Reddit)上训练的模型在其他平台(Voat、网络论坛)上用于仇恨言论检测是否有效?
- RQ4当仇恨社区与支持社区共用词汇时,社区驱动方法如何处理?
主要发现
- 基于社区的分类器在精确度方面高于基线关键词方法(高出10–20个百分点),减少误报。
- 同一目标的仇恨与支持社区共享大量词汇,但基于社区训练的模型仍能以较强的性能将二者区分开。
- 该方法在 Reddit 内部实现对仇恨内容的稳健检测,在应用于 Voat 与网络论坛时显示出相当的性能。
- 朴素贝叶斯、SVM 与逻辑回归在仇恨数据上的表现相近,某些指标上逻辑回归有小幅提升。
- 先进行跨平台训练(Reddit),再在 Voat/网络论坛上测试,保持竞争力的准确性并展示跨平台适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。