[논문 리뷰] Detecting Hate Speech in Multi-modal Memes
이 논문은 이미지 자막 생성 및 감정 분석을 도입하여 시각적·텍스트 신호를 더 잘 정렬하고 Facebook Hateful Memes Challenge 데이터셋의 무해한 교란 요인을 다루며 멀티모달 밈에서 혐오 발언 탐지를 다룹니다.
In the past few years, there has been a surge of interest in multi-modal problems, from image captioning to visual question answering and beyond. In this paper, we focus on hate speech detection in multi-modal memes wherein memes pose an interesting multi-modal fusion problem. We aim to solve the Facebook Meme Challenge \cite{kiela2020hateful} which aims to solve a binary classification problem of predicting whether a meme is hateful or not. A crucial characteristic of the challenge is that it includes "benign confounders" to counter the possibility of models exploiting unimodal priors. The challenge states that the state-of-the-art models perform poorly compared to humans. During the analysis of the dataset, we realized that majority of the data points which are originally hateful are turned into benign just be describing the image of the meme. Also, majority of the multi-modal baselines give more preference to the hate speech (language modality). To tackle these problems, we explore the visual modality using object detection and image captioning models to fetch the "actual caption" and then combine it with the multi-modal representation to perform binary classification. This approach tackles the benign text confounders present in the dataset to improve the performance. Another approach we experiment with is to improve the prediction with sentiment analysis. Instead of only using multi-modal representations obtained from pre-trained neural networks, we also include the unimodal sentiment to enrich the features. We perform a detailed analysis of the above two approaches, providing compelling reasons in favor of the methodologies used.
연구 동기 및 목표
- 메메에서 단일 모달 베이스라인을 넘어 강인한 멀티모달 혐오 발언 탐지의 동기를 부여한다.
- “실제 자막”을 추출하기 위해 이미지 자막 생성을 조사하고 이를 멀티모달 표현과 융합한다.
- 멀티모달 특징을 풍부하게 하고 분류를 개선하기 위해 감정 분석을 평가한다.
- 객체 탐지 기반 자막과 감정 신호가 Facebook Memes Challenge 데이터셋에서 예측 성능에 미치는 영향을 분석한다.
제안 방법
- VisualBERT를 멀티모달 베이스라인으로 사용하고 이미지 자막 모듈(Show, Attend, and Tell; Bottom-Up Top-Down)을 추가하여 BERT로 인코딩되고 VisualBERT 표현과 융합되는 이미지 자막을 생성한다.
- 객체 탐지와 자막화를 통해 실제 이미지 자막을 추출하고 이를 사전에 추출된 자막과 비교하며 분류 전 CONCAT 또는 Bilinear 변환으로 융합한다.
- 텍스트(RoBERTa)와 이미지(VGG 기반 시각 감정) 특징에 대한 단일 모달 감정 분석을 적용하고 이를 멀티모달 표현과 융합하여 MLP 분류기를 학습한다.
- 자막 생성과 감정 신호를 VisualBERT 특성과 연결(concatenation)하여 성능에 미치는 영향을 평가한다.
- Facebook Hateful Memes Challenge 데이터셋을 사용하여 AUC-ROC 및 정확도를 평가한다.
- 자막생성이 베이스라인 대비 AUC-ROC를 3.6 포인트, 정확도를 6.7 포인트 향상시키고, 감정 분석은 정확도에 약 4%의 이득을 준다고 보고한다; 두 가지를 결합하면 추가로 개선되지만 항상 단조롭게 증가하는 것은 아니다.
실험 결과
연구 질문
- RQ1밈에서 생성된 이미지 자막을 활용하는 것이 멀티모달 혐오 발언 탐지기를 오도하는 무해한 텍스트 교란 요인을 완화하는 데 도움이 되는가?
- RQ2텍스트 및 이미지 모달리티의 감정 정보를 도입하면 기존 멀티모달 표현을 넘어 혐오 발언 분류를 개선하는가?
- RQ3자막 파생 특징을 VisualBERT와 융합하는 것이 탐지 성능에 어떤 영향을 미치는가?
- RQ4이미지 자막과 감정 신호의 조합이 교란 요인을 가진 밈 변형에서도 일관되게 베이스라인보다 우수한가?
주요 결과
- 이미지 자막 기반 표현은 VisualBERT 베이스라인에 비해 AUC-ROC(≈3.6 포인트) 및 정확도(≈6.7 포인트)에서 상당한 향상을 보인다.
- 단일 모달 감정 분석을 도입하면 텍스트와 이미지 감정이 일치하거나 대조될 때 특히 정확도 이득이 ≈4%로 나타난다.
- 객체 탐지 기반 자막 사용은 무해한 교란 요인을 식별하고 혐오 밈 탐지를 개선하는 데 도움이 된다.
- 이 설정에서 Bilinear 융합은 CONCAT보다 성능이 우수하지 않았고 속도가 느려 간단한 CONCAT 융합을 선호하게 한다.
- 자막생성과 감정 특징을 VisualBERT와 결합하면 추가 개선을 얻지만, 특징 간 충돌이나 중복으로 인해 때때로 정확도가 줄어들 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.