QUICK REVIEW

[论文解读] The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes

Douwe Kiela, Hamed Firooz|arXiv (Cornell University)|May 10, 2020

Hate Speech and Cyberbullying Detection参考文献 94被引用 146

一句话总结

本论文介绍一个包含 10k-meme 的多模态数据集，用于识别表情包中的仇恨言论，设计目标是需要真正的多模态推理并评估各种单模态和多模态模型，人类的表现优于现有模型。

ABSTRACT

This work proposes a new challenge set for multimodal classification, focusing on detecting hate speech in multimodal memes. It is constructed such that unimodal models struggle and only multimodal models can succeed: difficult examples ("benign confounders") are added to the dataset to make it hard to rely on unimodal signals. The task requires subtle reasoning, yet is straightforward to evaluate as a binary classification problem. We provide baseline performance numbers for unimodal models, as well as for multimodal models with various degrees of sophistication. We find that state-of-the-art methods perform poorly compared to humans (64.73% vs. 84.7% accuracy), illustrating the difficulty of the task and highlighting the challenge that this important problem poses to the community.

研究动机与目标

定义一个需要超越单模态线索的多模态推理的仇恨言论检测任务。
构建一个有许可的、可重构的表情包数据集，包含良性混淆因子以挑战单模态先验。
提供明确的评估指标和基线，用以对比多模态模型与人类的表现。
分析标注者一致性和数据集属性，以理解仇恨类别和攻击类型。
提供一个公开基准，以推动多模态理解和现实世界仇恨言论治理的进展。

提出的方法

通过使用带有许可的 Getty 图像重构表情包来构建挑战集，以保持含义。
使用 3 点量表（definitely hateful、not sure、definitely not hateful）对表情包的仇恨性进行标注并推导出二元标签。
创建良性混淆因素（图像和文本均有）以翻转标签并强制多模态依赖。
将数据分割为 dev/test/fine-tuning 集，保持 dev/test 分布平衡，并报告 ROC AUC 和准确率。
评估一系列单模态与多模态模型（仅图像、仅文本、早期/中期/晚期融合，以及多模态预训练变体）。
提供跨模型的基线性能数据，以说明与人类性能的差距。

实验结果

研究问题

RQ1在存在良性混淆因素时，多模态模型能否在表情包仇恨言论检测上超越单模态基线？
RQ2多模态预训练与单模态预训练在该任务上的表现有何差异？
RQ3该基准测试中当前模型与人类性能之间的差距有多大？
RQ4图像线索和文本线索在检测仇恨表情包中分别扮演何种角色？
RQ5标注的可靠性如何，仇恨性判定的一致性（跨标注者一致性）是多少？

主要发现

单模态模型相对多模态模型表现吃力，在本任务中，文本信号相较于仅图像信号有适度优势。
多模态模型普遍优于单模态基线，早期融合架构比晚期融合获得更好的结果。
多模态预训练对比单模态预训练基线仅有适度提升，表明多模态学习仍有改进空间。
人类在该数据集上的表现显著高于最先进模型，凸显该任务的难度。
标注者一致性适中（Cohen 的 Kappa 68.4），反映了在本文定义下对仇恨言论分类的挑战。
该数据集包含多样化的表情包类型（多模态仇恨、单模态仇恨、良性混淆因素、随机非仇恨），以强调真正的多模态推理。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。