Skip to main content
QUICK REVIEW

[논문 리뷰] Unveiling Covert Toxicity in Multimodal Data via Toxicity Association Graphs: A Graph-Based Metric and Interpretable Detection Framework

Gang Wu, Zihao Zhu|arXiv (Cornell University)|2026. 02. 03.
Hate Speech and Cyberbullying Detection인용 수 0
한 줄 요약

논문은 Toxicity Association Graphs (TAGs)와 Multimodal Toxicity Covertness (MTC) 지표를 도입하여 이미지-텍스트 데이터에서 은밀한 독성을 탐지하고, 새로은 Covert Toxic Dataset (CTD)와 해석 가능한 TA-CTD 탐지 프레임워크를 뒷받침합니다.

ABSTRACT

Detecting toxicity in multimodal data remains a significant challenge, as harmful meanings often lurk beneath seemingly benign individual modalities: only emerging when modalities are combined and semantic associations are activated. To address this, we propose a novel detection framework based on Toxicity Association Graphs (TAGs), which systematically model semantic associations between innocuous entities and latent toxic implications. Leveraging TAGs, we introduce the first quantifiable metric for hidden toxicity, the Multimodal Toxicity Covertness (MTC), which measures the degree of concealment in toxic multimodal expressions. By integrating our detection framework with the MTC metric, our approach enables precise identification of covert toxicity while preserving full interpretability of the decision-making process, significantly enhancing transparency in multimodal toxicity detection. To validate our method, we construct the Covert Toxic Dataset, the first benchmark specifically designed to capture high-covertness toxic multimodal instances. This dataset encodes nuanced cross-modal associations and serves as a rigorous testbed for evaluating both the proposed metric and detection framework. Extensive experiments demonstrate that our approach outperforms existing methods across both low- and high-covertness toxicity regimes, while delivering clear, interpretable, and auditable detection outcomes. Together, our contributions advance the state of the art in explainable multimodal toxicity detection and lay the foundation for future context-aware and interpretable approaches. Content Warning: This paper contains examples of toxic multimodal content that may be offensive or disturbing to some readers. Reader discretion is advised.

연구 동기 및 목표

  • 그래프 구조(TAGs)를 통해 무해한 시각/텍스트 개념과 잠재적 독성 함의를 모델링한다.
  • MTC 점수로 은밀한 독성을 정량화하여 멀티모달 표현의 은폐 정도를 측정한다.
  • 고커버tness 독성 다중모달 인스턴스에 맞춘 벤치마크 CTD를 생성한다.
  • 독성 결정에 대한 설명을 제공하는 해석 가능한 탐지 경로를 제공한다.

제안 방법

  • Toxicity Association Graphs (TAGs)를 시각적 및 텍스트 연관 트리의 쌍 plus 교차 모달 이분 그래프의 튜플로 정의한다.
  • 이미지에서 뿌리를 시작하는 개념, 제한된 분기로 구성된 자식 노드, 그리고 전이 확률로 계층적 추론 경로를 형성하여 TAGs를 구성한다.
  • 다중모달 독성 은닉성 (MTC)을 c = 1 - p_hat 로 계산하는데, p_hat은 두 모달리티의 누적 루트-노드 전이 확률의 곱이다.
  • TAGs를 사용하여 옵저럴 독성 집합과의 매칭으로 독성을 탐지하고 LLM을 통해 설명을 산출하는 TA-CTD를 개발한다.
  • 사람 검증과 함께 고커버tness 독성 이미지-텍스트 쌍을 생성하기 위해 GPT-4.1과 GPT-Image-1을 활용하는 다중 에이전트 데이터 생성 파이프라인(CTD)을 도입한다.
Figure 1 : Image-text examples with increasing covertness levels:(a) both modalities are toxic, (b) only one modality is toxic, (c) both modalities are non-toxic.
Figure 1 : Image-text examples with increasing covertness levels:(a) both modalities are toxic, (b) only one modality is toxic, (c) both modalities are non-toxic.

실험 결과

연구 질문

  • RQ1교차 모달 연관성에서만 나타나는 은밀한 독성을 탐지할 수 있도록 Toxicity Association Graphs가 가능할까?
  • RQ2MTC와 같은 지표로 멀티모달 콘텐츠의 독성 은닉성을 어떻게 정량화할 수 있을까?
  • RQ3TAGs를 모더레이션 모델과 통합하면 명시적·은밀한 사례 모두에서 은밀한 독성 탐지가 향상될까?
  • RQ4Covert Toxic Dataset가 고커버tness 다중모달 독성의 도전적인 벤치마크인가?
  • RQ5TAGs에서 도출된 설명이 투명하고 감사 가능한 의사결정 경로를 제공하는가?

주요 결과

  • TAG-based reasoning improves detection of covert toxicity across multiple MLLMs compared to vanilla inputs.
  • TA-CTD significantly boosts F2-scores on the challenging CTD, e.g., Gemma3 from 0.31 to 0.82 and Llama 3.2 Vision near 0.97 under high covertness.
  • The CTD dataset exhibits predominantly high MTC values, indicating a focus on high-covertness toxicity unlike some existing datasets.
  • Ablations show deeper TAGs (l_max = 4) are essential for high-covertness detection, while shallower TAGs suffice for low covertness.
  • TA-CTD generalizes to overt and covert toxicity on Hateful Memes and VLSBench, improving F2-scores over Vanilla in mixed datasets.
  • Case studies illustrate interpretable paths linking benign visual/textual cues to latent toxic implications.
Figure 2 : Workflow of TA-CTD and computation of Multimodal Toxicity Covertness score.
Figure 2 : Workflow of TA-CTD and computation of Multimodal Toxicity Covertness score.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.