[论文解读] Interpretable Multi-Modal Hate Speech Detection
本论文提出一个深度多模态模型,通过结合文本语义与社会文化背景及社交图特征来检测仇恨言论,并在比文本单一基线具有可解释洞见的性能上表现优越。
With growing role of social media in shaping public opinions and beliefs across the world, there has been an increased attention to identify and counter the problem of hate speech on social media. Hate speech on online spaces has serious manifestations, including social polarization and hate crimes. While prior works have proposed automated techniques to detect hate speech online, these techniques primarily fail to look beyond the textual content. Moreover, few attempts have been made to focus on the aspects of interpretability of such models given the social and legal implications of incorrect predictions. In this work, we propose a deep neural multi-modal model that can: (a) detect hate speech by effectively capturing the semantics of the text along with socio-cultural context in which a particular hate expression is made, and (b) provide interpretable insights into decisions of our model. By performing a thorough evaluation of different modeling techniques, we demonstrate that our model is able to outperform the existing state-of-the-art hate speech classification approaches. Finally, we show the importance of social and cultural context features towards unearthing clusters associated with different categories of hate.
研究动机与目标
- 需要利用超越文本的社会文化背景来检测仇恨言论的动机。
- 开发一个融合文本、人口统计与社交图特征的多模态神经模型。
- 证明社会与文化背景会提升仇恨言论检测的性能。
- 通过注意力机制提供对模型决策的可解释洞见。
- 展示模型能够利用学习到的嵌入将仇恨言论聚类为不同类别。
提出的方法
- 定义一个包含推文及作者属性的多模态仇恨言论数据集 D(H)。
- 使用字符增强的词表示和自注意力对文本进行编码以产生文本特征。
- 通过一个预训练的人口统计分类器从作者的人口统计表示中提取社会文化背景。
- 从仇恨社区关注者图 G^h 构建社会背景特征并映射到低维向量。
- 使用一个后端融合的自注意力机制融合文本与社会文化特征,以产生用于分类的最终表示。
- 用类别交叉熵训练模型并在传统和深度学习基线下进行评估。
实验结果
研究问题
- RQ1将社会文化和社会上下文特征纳入是否比文本单一模型能提升仇恨言论检测?
- RQ2人口统计与社交图特征如何帮助检测仇恨言论并对仇恨类别进行聚类?
- RQ3模型是否能够通过注意力权重提供对预测的可解释洞见?
- RQ4多模态融合相比文本单一与传统模型的相对提升有哪些?
主要发现
- 所提出的多模态模型在 F1(仇恨) 与 F1(总体) 上优于传统和文本单一深度学习基线。
- 文本+SC(文本+社会文化特征)模型的性能高于文本单一模型(例如 BiGRU+Char+Attn+FF:F1 仇恨 0.784,F1 总体 0.90)。
- 将社会与文化背景引入显著提升了相对于文本单一模型的性能(例如 BiGRU+Char+Attn:F1 仇恨 0.744,F1 总体 0.864)。
- 模型学习的仇恨手势嵌入可以聚类为类别(反伊斯兰、反黑人、反移民、普遍仇恨、反犹太)并获得来自最高注意词的定性证据。
- 基于注意力的可解释性与扰动基方法一致,并在预测中突出显示代码词和情境线索。
- 当使用社会文化背景时,聚类纯度分数与地面真相的对齐更好(文本+SC:0.76 vs 文本仅:0.52)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。