Skip to main content
QUICK REVIEW

[论文解读] Training-Free and Interpretable Hateful Video Detection via Multi-stage Adversarial Reasoning

Shuonan Yang, Yuchen Zhang|arXiv (Cornell University)|Jan 21, 2026
Hate Speech and Cyberbullying Detection被引用 0
一句话总结

MARS 是一个训练无须、多阶段对抗性推理框架,使用 VLMs 来检测仇恨视频,提供可解释、基于证据的理由,避免对训练数据的依赖。

ABSTRACT

Hateful videos pose serious risks by amplifying discrimination, inciting violence, and undermining online safety. Existing training-based hateful video detection methods are constrained by limited training data and lack of interpretability, while directly prompting large vision-language models often struggle to deliver reliable hate detection. To address these challenges, this paper introduces MARS, a training-free Multi-stage Adversarial ReaSoning framework that enables reliable and interpretable hateful content detection. MARS begins with the objective description of video content, establishing a neutral foundation for subsequent analysis. Building on this, it develops evidence-based reasoning that supports potential hateful interpretations, while in parallel incorporating counter-evidence reasoning to capture plausible non-hateful perspectives. Finally, these perspectives are synthesized into a conclusive and explainable decision. Extensive evaluation on two real-world datasets shows that MARS achieves up to 10% improvement under certain backbones and settings compared to other training-free approaches and outperforms state-of-the-art training-based methods on one dataset. In addition, MARS produces human-understandable justifications, thereby supporting compliance oversight and enhancing the transparency of content moderation workflows. The code is available at https://github.com/Multimodal-Intelligence-Lab-MIL/MARS.

研究动机与目标

  • 解决基于训练的仇恨视频检测器的稀缺性与不透明性问题。
  • 开发一个训练无须的框架,使决策具有可供人理解的 justification。
  • 利用仇恨与非仇恨解读之间的显式证据对比。
  • 通过元分析阶段综合证据,提供可审计的决策。

提出的方法

  • 推理期间不更新模型参数的四阶段框架。
  • 阶段 1:从采样帧和音频转写中生成客观内容描述。
  • 阶段 2:在仇恨假设下推断支持仇恨的证据、推理和置信度。
  • 阶段 3:在非仇恨假设下推断非仇恨证据、推理和置信度。
  • 阶段 4:元分析综合权衡相互竞争的假设,并输出带有推理理由的结构化决策。

实验结果

研究问题

  • RQ1一个基于训练无须的 VLM 系统是否能在没有标注微调数据的情况下实现具有竞争力的仇恨检测准确性?
  • RQ2显式证据基础的多阶段推理是否能提升可解释性并降低误报?
  • RQ3与基于训练的基线及其他训练无须方法相比,MARS 在不同语言和骨干模型上的表现如何?
  • RQ4各推理阶段对总体准确性和宏观 F1 的影响是什么?

主要发现

  • MARS 在多个数据集上相对于训练无须基线实现了更高的精确度和具有竞争力的准确性。
  • 在 English HateMM 上,MARS 在所有指标上均明显优于训练无须基线,并且与训练型模型保持竞争力。
  • 在 Chinese MultiHateClip 上,MARS 保持了可比的准确性,同时在精确度方面具有明显优势,较某些训练型方法最高提升可达 7%。
  • 消融研究显示去除客观描述或基于假设的结构会降低准确性和宏观 F1,证明阶段的必要性。
  • 帧采样(16-32 帧)和更大的骨干模型提升了性能,表明可扩展性与稳定性。
  • MARS 提供细粒度、可人类理解的论证与显式证据链,便于审计。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。