Skip to main content
QUICK REVIEW

[논문 리뷰] MALicious INTent Dataset and Inoculating LLMs for Enhanced Disinformation Detection

Arkadiusz Modzelewski, Witold Sosnowski|arXiv (Cornell University)|2026. 03. 15.
Misinformation and Its Impacts인용 수 0
한 줄 요약

MALINT를 소개합니다. 이는 악의적 의도를 가진 허위정보를 주석한 최초의 영어 말뭉치이며, 의도 분류에 대해 12개 LMs를 벤치마크하고, 장르와 언어 전반에서 제로샷 허위정보 탐지를 개선하기 위한 의도 기반 접종(intent-based inoculation)을 제안합니다.

ABSTRACT

The intentional creation and spread of disinformation poses a significant threat to public discourse. However, existing English datasets and research rarely address the intentionality behind the disinformation. This work presents MALINT, the first human-annotated English corpus developed in collaboration with expert fact-checkers to capture disinformation and its malicious intent. We utilize our novel corpus to benchmark 12 language models, including small language models (SLMs) such as BERT and large language models (LLMs) like Llama 3.3, on binary and multilabel intent classification tasks. Moreover, inspired by inoculation theory from psychology and communication studies, we investigate whether incorporating knowledge of malicious intent can improve disinformation detection. To this end, we propose intent-based inoculation, an intent-augmented reasoning for LLMs that integrates intent analysis to mitigate the persuasive impact of disinformation. Analysis on six disinformation datasets, five LLMs, and seven languages shows that intent-augmented reasoning improves zero-shot disinformation detection. To support research in intent-aware disinformation detection, we release the MALINT dataset with annotations from each annotation step.

연구 동기 및 목표

  • 전문 팩트체크 협업으로 고품질의 영어 허위정보 및 악의적 의도 주석이 포함된 MALINT를 정의한다.
  • MALINT를 사용하여 이진 및 다중레이블 악의적 의도 분류에서 소형·대형 언어 모델을 벤치마크한다.
  • 다양한 데이터셋과 언어에 걸쳐 제로샷 허위정보 탐지를 향상시키기 위한 의도 기반 접종을 개발하고 테스트한다.
  • 의도 인지 기반 허위정보 탐지 연구를 지원하기 위해 데이터셋, 프롬프트 및 코드베이스를 공개한다.

제안 방법

  • 여러 출처의 약 1,600개 온라인 기사에서 신뢰도에 따라 분류(Credible 대 Disinformation)하고 다중레이블 설정에서 다섯 가지 악의적 의도 유형(UCPI, CPV, UIOA, PSSA, PASV)에 주석을 단 MALINT를 구성한다.
  • 의도 분류를 위한 이진 및 다중레이블에서 2,000건이 넘는 실험을 통해 미세조정 및 제로샷 프롬프팅을 사용하는 12개 언어 모델(SLM: BERT, RoBERTa, DeBERTa, DistilBERT; LLM: GPT-4o Mini, GPT-4.1 Mini, Gemini 2.0 Flash, Gemma 3, Llama 3.3 70B)을 평가한다.
  • 의도 기반 접종(IBI)을 제안하고 테스트한다: 의도 분석과 근거를 생성하고, 외부 의도 지식과 과제 가이던스를 공급하며, 위협+반박 선제 프롬프트를 사용하여 제로샷 허위정보 탐지를 향상시킨다.
  • MALINT 및 다섯 개의 다른 데이터셋(ISOT Fake News, CoAID, EUDisinfo, ECTF, EUvsDisinfo)에서 영어 및 여섯 개 언어로 IBI를 평가하고, 장르별·시간 분할을 사용하며 McNemar 검정으로 유의성을 판단한다.

실험 결과

연구 질문

  • RQ112개의 LMs가 영어 텍스트에서 이진 및 다중레이블 설정으로 악의적 의도를 정확하게 탐지할 수 있는가?
  • RQ2의도 기반 접종을 통한 악의적 의도 지식을 도입하는 것이 장르, 시기, 언어 전반에 걸친 제로샷 허위정보 탐지를 향상시키는가?
  • RQ3의도 인지적 추론이 다언어적 맥락에서 어떻게 수행되며 저자원 언어를 포함하는가?
  • RQ4MALINT 주석의 신뢰도는 어떠하며 의도 공존에서 어떤 패턴이 나타나는가?
  • RQ5의도 기반 접종은 사전 학습 중 보지 못한 콘텐츠에 대해 강건한가?

주요 결과

  • MALINT에는 1,600개 기사, 63.5%는 Credible이고 36.5%는 Disinformation이며, 다섯 가지 악의적 의도 범주가 주석되었고(UCPI 20.06%, UIOA 14.63%, PASV 9.63%, PSSA 13.88%, CPV 12.31%), 현저한 유병률을 보인다.
  • 이진 의도 분류에서 DeBERTa V3 Large와 RoBERTa Large가 SLM 중에서 성능이 우수하고, GPT-4.1 Mini와 Llama 3.3 70B는 LLM에서 특정 의도에 대해 우수하며, LLM은 일부 카테고리에서 미세조정된 SLM보다 일반적으로 우수하다.
  • 다중레이블 의도 탐지는 미세조정된 SLM(DeBERTa V3 및 RoBERTa)이 가장 높은 micro/weighted F1값(약 0.81–0.82)을 보여 주로 SLM에 유리하고, 많은 LLM은 이 설정에서 뒤처지는 편이다.
  • 의도 기반 접종(IBI)은 MALINT 및 다른 데이터셋에서도 일관되게 허위정보 탐지를 향상시키며, 평균 F1 증가가 약 2–8%이고(일부 모델 예: Gemini 2.0 Flash에서 더 높고 더 긴 텍스트에서 더 큰 상승)
  • 다언어 전이 결과에서 IBI는 여섯 언어에서 기준 프롬프팅 대비 평균 약 20% 향상을 보이며, 에스토니아어에서 특히 강한 이득을 보이고, 사후 컷오프의 보지 못한 콘텐츠에서도 이득을 유지한다.
  • IBI 향상은 장르(기사 대 소셜 포스트)와 시간 분할에서 견고하며, 대부분의 시나리오에서 유의미한 향상(McNemar의 검정, MALINT에서 0.01 수준)을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.