QUICK REVIEW

[논문 리뷰] See, Explain, and Intervene: A Few-Shot Multimodal Agent Framework for Hateful Meme Moderation

Naquee Rizwan, Subhankar Swain|arXiv (Cornell University)|2026. 01. 08.

Hate Speech and Cyberbullying Detection인용 수 0

한 줄 요약

이 논문은 Few-shot, 멀티모달 에이전트 프레임워크를 제안하여 증오성 밈을 공동으로 탐지하고, 설명을 생성하며, 개입을 제시합니다. 대형 모델의 소샷 프롬프팅을 위한 실버 데이터를 생성하기 위해 태스크-특정 에이전트를 사용합니다.

ABSTRACT

In this work, we examine hateful memes from three complementary angles - how to detect them, how to explain their content and how to intervene them prior to being posted - by applying a range of strategies built on top of generative AI models. To the best of our knowledge, explanation and intervention have typically been studied separately from detection, which does not reflect real-world conditions. Further, since curating large annotated datasets for meme moderation is prohibitively expensive, we propose a novel framework that leverages task-specific generative multimodal agents and the few-shot adaptability of large multimodal models to cater to different types of memes. We believe this is the first work focused on generalizable hateful meme moderation under limited data conditions, and has strong potential for deployment in real-world production scenarios. Warning: Contains potentially toxic contents.

연구 동기 및 목표

증오 밈 관리에서 탐지, 설명, 개입 간의 간극을 좁히기 위해 제한된 데이터 조건에서 작동하는 엔드투엔드 프레임워크를 제시합니다.
더 큰 모델에서 엔드투엔드 소샷 학습을 위한 실버 훈련 데이터를 생성하기 위해 태스크-특정의 미리 학습된 멀티모달 에이전트를 활용합니다.
기존 혐오 밈 벤치마크를 확장하여 분류, 설명, 개입에 대한 엔드투엔드 평가를 지원하는 일관된 데이터셋을 주석화하고 큐레이션합니다.
실버 데이터와 GPT-4o를 이용한 소샷 프롬프팅이 자원이 제한된 설정에서 표준 혐오 밈 벤치마크에서 최첨단 성과를 달성함을 입증합니다.

제안 방법

작은 멀티모달 모델(paligemma-3b-pt-448)과 기존 데이터셋(MemeCap, HatReDAug, MemeSense)을 사용하여 캡션 작성, 설명, 개입의 세 가지 태스크-특정 에이전트를 학습하고 실버 데이터를 생성합니다.
Cosine 유사도(SigLIP 임베딩)를 사용하여 테스트 세트의 이웃에서 높은 관련성을 가진 표본을 선택하는 예시 기반 소샷 프롬프팅을 사용합니다.
각 예시를 세 에이전트로 실행해 캡션, 설명, 개입(가능한 경우)을 얻고 이 enriched context를 더 큰 멀티모달 모델에 입력해 예측을 수행합니다.
두 단계 프레임워크를 적용합니다: (i) 태스크-특정 에이전트를 통해 실버 데이터를 생성하고, (ii) 대형 모델(GPT-4o, Intern-VL3, Pixtral)을 대상으로 분류, 설명, 개입에 대한 소샷 프롬프팅을 수행합니다.
분류는 정확도와 매크로-F1으로 평가하고, 설명과 개입은 Rouge-L, 의미적 유사도, BertScore-F1로 평가합니다.
PromptHate, Pro-Cap, ModHate, Few-Shot 방법들, MemeSense 등 여러 베이스라인과 FHM 및 MAMI 데이터셋에서 비교합니다.

Figure 1: Overview of our novel task formulation.

실험 결과

연구 질문

RQ1제한된 데이터 조건에서 엔드투엔드 혐오 밈 관리 시스템이 동시에 분류, 설명, 개입을 수행할 수 있습니까?
RQ2작은 멀티모달 에이전트가 대형 모델에서 소샷 학습에 유용한 실버 데이터를 생성하는 데 얼마나 효과적입니까?
RQ3 enriched 예시와 에이전트가 생성한 설명/개입으로 소샷 프롬프팅이 기존 벤치마크보다 우수한가요?
RQ4이 설정에서 서로 다른 모델이 생성하는 설명과 개입의 질적 특성(일관성, 감정, 토큰화)은 어떠한가요?

주요 결과

GPT-4o를 이용한 소샷 분류가 FHM에서 매크로-F1 80.25%, MAMI에서 89.07%를 달성하며 베이스라인을 상회합니다.
GPT-4o가 생성한 설명은 FHM과 MAMI에서 의미적 유사도 측면에서 HatReD 기반 설명보다 우수합니다(각각 0.679, 0.654).
Intern-VL3 및 Pixtral은 FHM과 MAMI에서 개입 생성을 위해 MemeSense보다 우수합니다(의미적 유사도 0.777, 0.849).
GPT-4o가 가장 일관된 설명과 개입을 제공하며, 더 일관된 토큰 수, 낮은 혼란도, 두 데이터셋에서 바람직한 의미적 응집성을 보입니다.
오픈 모델은 개입 텍스트가 더 반복적으로 생성되는 경향이 있는 반면, GPT-4o는 설명에서 어휘 다양성이 더 크지만 비혐오 사례에서 약간의 변동이 더 큽니다.

Figure 2: Overview of fine-tuning task specific agents and using them for silver data generation of FHM and MAMI datasets.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.