Skip to main content
QUICK REVIEW

[论文解读] The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes

Douwe Kiela, Hamed Firooz|arXiv (Cornell University)|May 10, 2020
Hate Speech and Cyberbullying Detection参考文献 94被引用 146
一句话总结

本论文介绍一个包含 10k-meme 的多模态数据集,用于识别表情包中的仇恨言论,设计目标是需要真正的多模态推理并评估各种单模态和多模态模型,人类的表现优于现有模型。

ABSTRACT

This work proposes a new challenge set for multimodal classification, focusing on detecting hate speech in multimodal memes. It is constructed such that unimodal models struggle and only multimodal models can succeed: difficult examples ("benign confounders") are added to the dataset to make it hard to rely on unimodal signals. The task requires subtle reasoning, yet is straightforward to evaluate as a binary classification problem. We provide baseline performance numbers for unimodal models, as well as for multimodal models with various degrees of sophistication. We find that state-of-the-art methods perform poorly compared to humans (64.73% vs. 84.7% accuracy), illustrating the difficulty of the task and highlighting the challenge that this important problem poses to the community.

研究动机与目标

  • 定义一个需要超越单模态线索的多模态推理的仇恨言论检测任务。
  • 构建一个有许可的、可重构的表情包数据集,包含良性混淆因子以挑战单模态先验。
  • 提供明确的评估指标和基线,用以对比多模态模型与人类的表现。
  • 分析标注者一致性和数据集属性,以理解仇恨类别和攻击类型。
  • 提供一个公开基准,以推动多模态理解和现实世界仇恨言论治理的进展。

提出的方法

  • 通过使用带有许可的 Getty 图像重构表情包来构建挑战集,以保持含义。
  • 使用 3 点量表(definitely hateful、not sure、definitely not hateful)对表情包的仇恨性进行标注并推导出二元标签。
  • 创建良性混淆因素(图像和文本均有)以翻转标签并强制多模态依赖。
  • 将数据分割为 dev/test/fine-tuning 集,保持 dev/test 分布平衡,并报告 ROC AUC 和准确率。
  • 评估一系列单模态与多模态模型(仅图像、仅文本、早期/中期/晚期融合,以及多模态预训练变体)。
  • 提供跨模型的基线性能数据,以说明与人类性能的差距。

实验结果

研究问题

  • RQ1在存在良性混淆因素时,多模态模型能否在表情包仇恨言论检测上超越单模态基线?
  • RQ2多模态预训练与单模态预训练在该任务上的表现有何差异?
  • RQ3该基准测试中当前模型与人类性能之间的差距有多大?
  • RQ4图像线索和文本线索在检测仇恨表情包中分别扮演何种角色?
  • RQ5标注的可靠性如何,仇恨性判定的一致性(跨标注者一致性)是多少?

主要发现

  • 单模态模型相对多模态模型表现吃力,在本任务中,文本信号相较于仅图像信号有适度优势。
  • 多模态模型普遍优于单模态基线,早期融合架构比晚期融合获得更好的结果。
  • 多模态预训练对比单模态预训练基线仅有适度提升,表明多模态学习仍有改进空间。
  • 人类在该数据集上的表现显著高于最先进模型,凸显该任务的难度。
  • 标注者一致性适中(Cohen 的 Kappa 68.4),反映了在本文定义下对仇恨言论分类的挑战。
  • 该数据集包含多样化的表情包类型(多模态仇恨、单模态仇恨、良性混淆因素、随机非仇恨),以强调真正的多模态推理。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。