[논문 리뷰] Harm or Humor: A Multimodal, Multilingual Benchmark for Overt and Covert Harmful Humor
다음과 같은 멀티모달, 다국어 벤치마크를 도입하여 영어와 아랍어의 텍스트, 이미지, 비디오 전반에서 해로운 유머를 탐지하고, 명시적 및 암시적 해를 포함하며, SOTA 오픈/클로즈드 모델을 평가합니다.
Dark humor often relies on subtle cultural nuances and implicit cues that require contextual reasoning to interpret, posing safety challenges that current static benchmarks fail to capture. To address this, we introduce a novel multimodal, multilingual benchmark for detecting and understanding harmful and offensive humor. Our manually curated dataset comprises 3,000 texts and 6,000 images in English and Arabic, alongside 1,200 videos that span English, Arabic, and language-independent (universal) contexts. Unlike standard toxicity datasets, we enforce a strict annotation guideline: distinguishing Safe jokes from Harmful ones, with the latter further classified into Explicit (overt) and Implicit (Covert) categories to probe deep reasoning. We systematically evaluate state-of-the-art (SOTA) open and closed-source models across all modalities. Our findings reveal that closed-source models significantly outperform open-source ones, with a notable difference in performance between the English and Arabic languages in both, underscoring the critical need for culturally grounded, reasoning-aware safety alignment. Warning: this paper contains example data that may be offensive, harmful, or biased.
연구 동기 및 목표
- 암묵적으로 위험한 유머를 안전성 평가에서 간과하는 문화적 맥락 요구를 다루고자 한다.
- 영어와 아랍어(및 보편적 비디오 컨텍스트)를 포함한 텍스트, 이미지, 비디오로 구성된 수동으로 선별된 크로스모달 데이터셋을 생성한다.
- 통합 해롭기 탐지 작업에서 공개/비공개 소스 LLM/VLM 및 비디오 LLM을 평가한다.
- 다양한 언어 간 안전 정렬의 필요성과 언어별 취약점의 존재 여부를 조사한다.
제안 방법
- 해로운 표기가 있는 영어, 아랍어 및 보편적 콘텐츠로 3,000개 텍스트 농담, 6,005개 밈/이미지, 1,202개의 짧은 비디오를 수집하고 해로운 라벨 부여를 한다.
- 각 항목을 다수결로 Safe, Harmful의 하위라벨 Explicit 또는 Implicit로 주석화한다.
- 다양한 모달리티에서 닫힌 소스(GPT-5.2/4o, Gemini)와 열린 소스(DeepSeek-Reasoner, Qwen, LLaMA 기반) 모델의 이진 Harmful vs Safe 및 Explicit/Implicit별 재현율을 평가한다.
실험 결과
연구 질문
- RQ1현재 모델이 영어와 아랍어에서 텍스트, 이미지, 비디오 전반의 해로운 유머를 얼마나 잘 탐지하는가?
- RQ2암시적(맥락 있는) 해와 명시적 해를 탐지하는 데 모델이 격차를 보이는가, 그리고 이 격차가 언어에 의존하는가?
- RQ3다언어 및 다모달 해로운 유머 탐지에서 오픈 소스 대비 비공개 소스 모델의 상대적 성능은 어떠한가?
- RQ4언어(영어 대 아랍어)가 다모달 안전 정렬에 얼마나 영향을 미치는가?
주요 결과
| 모델 | 언어 | 정확도 | F1 | 암시적 | 명시적 |
|---|---|---|---|---|---|
| GPT-5.2 | English | 74.7 | 72.0 | 49.7 | 88.5 |
| GPT-4o | English | 74.3 | 70.8 | 45.1 | 80.5 |
| Gemini 3 Pro | English | 68.1 | 55.7 | 10.5 | 61.3 |
| Gemini 2.5 Pro | English | 73.2 | 67.9 | 33.7 | 81.2 |
| DeepSeek-Reasoner | English | 85.2 | 85.2 | 75.1 | 83.3 |
| Qwen2.5-14B | English | 84.0 | 83.8 | 82.8 | 95.7 |
| GPT-5.2 | Arabic | 60.6 | 60.6 | 47.4 | 42.0 |
| GPT-4o | Arabic | 61.8 | 61.8 | 42.0 | 46.8 |
| Gemini 2.5 Pro | Arabic | 70.2 | 70.1 | 41.9 | 68.7 |
| Qwen2.5-14B | Arabic | 73.4 | 72.8 | 55.1 | 77.2 |
- 클로즈드 소스 모델이 일반적으로 모달리티와 언어 전반에서 오픈 소스보다 더 나은 성능을 보인다.
- 영어에서 아랍어로 갈수록 특히 암시적 해 탐지에서 성능 저하가 두드러진다.
- 명시적 해는 암시적 해보다 더 신뢰성 있게 탐지되며, 많은 모델에서 아랍어의 차이가 더 크다.
- 비디오 및 이미지 모달리티에서 영어 편향이 강하게 나타나고, 보편 콘텐츠는 일반적으로 영어에 비해 성능이 떨어지지만 일부 경우 아랍어보다 낫다.
- Gemini-2.5-Pro가 모달리티, 언어, 암시적/명시적 해 탐지 모두에서 가장 균형 잡힌 성능을 자주 제공한다.
- 오픈 소스 모델은 안전 편향을 보이거나 다모달 신호에 취약해 실제 해로운 콘텐츠에 대한 재현율이 낮은 경향이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.