Skip to main content
QUICK REVIEW

[论文解读] See, Explain, and Intervene: A Few-Shot Multimodal Agent Framework for Hateful Meme Moderation

Naquee Rizwan, Subhankar Swain|arXiv (Cornell University)|Jan 8, 2026
Hate Speech and Cyberbullying Detection被引用 0
一句话总结

本论文提出一个少-shot、多模态代理框架,联合检测仇恨梗图、生成解释并提出干预建议,使用任务特定代理为大模型的少样本提示生成银数据。

ABSTRACT

In this work, we examine hateful memes from three complementary angles - how to detect them, how to explain their content and how to intervene them prior to being posted - by applying a range of strategies built on top of generative AI models. To the best of our knowledge, explanation and intervention have typically been studied separately from detection, which does not reflect real-world conditions. Further, since curating large annotated datasets for meme moderation is prohibitively expensive, we propose a novel framework that leverages task-specific generative multimodal agents and the few-shot adaptability of large multimodal models to cater to different types of memes. We believe this is the first work focused on generalizable hateful meme moderation under limited data conditions, and has strong potential for deployment in real-world production scenarios. Warning: Contains potentially toxic contents.

研究动机与目标

  • 弥合仇恨梗图 moderation 的检测、解释与干预之间的差距,提出一个在有限数据条件下运行的端到端框架。
  • 利用任务特定、微调的多模态代理生成银色训练数据,以实现对更大模型的端到端少样本学习。
  • 标注并整理与现有仇恨梗图基准相衔接的连贯数据集,支持端到端评估在分类、解释和干预方面。
  • 证明在低资源设置下,使用银数据和 GPT-4o 的少样本提示在标准仇恨梗图基准上达到最先进的结果。

提出的方法

  • 训练三个任务特定代理(字幕生成、解释、干预),使用小型多模态模型(paligemma-3b-pt-448)和现有数据集(MemeCap、HatReDAug、MemeSense)来生成银数据。
  • 使用基于示例的少样本提示,结合余弦相似度(SigLIP 嵌入)从测试集邻域中筛选高度相关的范例。
  • 通过让每个范例经过三个代理生成字幕、解释和干预(如适用),并将丰富的上下文输入到更大的多模态模型中进行预测。
  • 应用两阶段框架:(i) 使用任务特定代理生成银数据;(ii) 对大型模型(GPT-4o、Intern-VL3、Pixtral)进行分类、解释和干预的少样本提示。
  • 以分类的准确性和宏F1为评价指标,对解释和干预使用 Rouge-L、语义相似度和 BertScore-F1。
  • 与多种基准对比,包括 PromptHate、Pro-Cap、ModHate、Few-Shot 方法,以及 MemeSense,在 FHM 和 MAMI 数据集上评估。
Figure 1: Overview of our novel task formulation.
Figure 1: Overview of our novel task formulation.

实验结果

研究问题

  • RQ1在有限数据条件下,是否能实现端到端的仇恨梗图 moderation 系统同时完成分类、解释与干预?
  • RQ2任务特定的小型多模态代理在为较大模型的少样本学习生成有用的银数据方面有多有效?
  • RQ3 enriched 示例和代理生成的解释/干预是否在标准仇恨梗图基准上超过现有基线?
  • RQ4在此设置中,不同模型生成的解释与干预的定性特征(连贯性、情感、标记化)有哪些?

主要发现

  • 少样本分类使用 GPT-4o 在 FHM 上达到宏 F1 = 80.25%、在 MAMI 上达到 89.07%,超越基线。
  • GPT-4o 生成的解释在语义相似度上优于基于 HatReD 的解释,FHM 和 MAMI 的分数分别为 0.679 和 0.654。
  • Intern-VL3 和 Pixtral 在干预生成方面优于 MemeSense,在 FHM 和 MAMI 的语义相似度分别为 0.777 和 0.849。
  • GPT-4o 能生成最连贯的解释和干预,具有更一致的标记数量、较低的困惑度,以及在各数据集上的语义连贯性更好。
  • 开放模型的干预文本往往更重复,而 GPT-4o 生成的解释在词汇多样性方面更高,但在非仇恨情形下的变异略大。
Figure 2: Overview of fine-tuning task specific agents and using them for silver data generation of FHM and MAMI datasets.
Figure 2: Overview of fine-tuning task specific agents and using them for silver data generation of FHM and MAMI datasets.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。