Skip to main content
QUICK REVIEW

[論文レビュー] MALicious INTent Dataset and Inoculating LLMs for Enhanced Disinformation Detection

Arkadiusz Modzelewski, Witold Sosnowski|arXiv (Cornell University)|Mar 15, 2026
Misinformation and Its Impacts被引用数 0
ひとこと要約

MALINT を紹介する最初の英語コーパス。悪意ある意図を付与して情報操作を注釈付けし、12 の LM を意図分類でベンチマーク、ジャンルと言語を跨ぐゼロショットの偽情報検出を向上させる意図ベースの接種を提案。

ABSTRACT

The intentional creation and spread of disinformation poses a significant threat to public discourse. However, existing English datasets and research rarely address the intentionality behind the disinformation. This work presents MALINT, the first human-annotated English corpus developed in collaboration with expert fact-checkers to capture disinformation and its malicious intent. We utilize our novel corpus to benchmark 12 language models, including small language models (SLMs) such as BERT and large language models (LLMs) like Llama 3.3, on binary and multilabel intent classification tasks. Moreover, inspired by inoculation theory from psychology and communication studies, we investigate whether incorporating knowledge of malicious intent can improve disinformation detection. To this end, we propose intent-based inoculation, an intent-augmented reasoning for LLMs that integrates intent analysis to mitigate the persuasive impact of disinformation. Analysis on six disinformation datasets, five LLMs, and seven languages shows that intent-augmented reasoning improves zero-shot disinformation detection. To support research in intent-aware disinformation detection, we release the MALINT dataset with annotations from each annotation step.

研究の動機と目的

  • MALINT を高品質な英語コーパスとして定義し、専門のファクトチェック協力を得て偽情報と悪意ある意図を注釈付けする。
  • MALINT を用いて binary および multilabel の悪意ある意図分類で小規模・大規模言語モデルをベンチマークする。
  • LLM を用いた diverse datasets and languages でゼロショット偽情報検出を高めるための意図ベースの接種(IBI)を開発・検証する。
  • データセット、プロンプト、コードベースを公開し、意図を意識した偽情報検出研究を支援する。

提案手法

  • 複数ソースから約1,600 件の記事を収集し、信頼性に基づくカテゴリ(Credible vs Disinformation)で分類、5 種の悪意ある意図タイプを multilabel で注釈付けする(UCPI, CPV, UIOA, PSSA, PASV)。
  • 12 の言語モデルを評価(SLMs: BERT, RoBERTa, DeBERTa, DistilBERT; LLMs: GPT-4o Mini, GPT-4.1 Mini, Gemini 2.0 Flash, Gemma 3, Llama 3.3 70B)し、2,000 件超の実験でファインチューニングとゼロショットプロンプティングによる binary および multilabel の意図分類を検証。
  • 意図ベースの接種(IBI)を提案・検証:意図分析と正当化を生成し、外部の意図知識とタスクガイダンスを提供し、脅威+反論の前提プロンプトを用いてゼロショット偽情報検出を向上させる。
  • IBI を MALINT および ISOT Fake News, CoAID, EUDisinfo, ECTF, EUvsDisinfo の5 dataset を含む計6言語で評価し、ジャンルと時間的分割を用い、McNemar の検定で有意性を評価する。

実験結果

リサーチクエスチョン

  • RQ112 の LMs は英語テキストの悪意ある意図を binary および multilabel 設定で正確に検出できるか?
  • RQ2悪意ある意図知識を意図ベースの接種で取り入れることは、ジャンル・時期・言語を跨るゼロショット偽情報検出を改善するか?
  • RQ3意図認識を取り入れた推論は、低資源言語を含む跨言語でどの程度効果があるか?
  • RQ4MALINT の注釈の信頼性と、意図の共起パターンにはどんな傾向があるか?
  • RQ5ポストカットオフの未見コンテンツに対して、意図ベースの接種は頑健か?

主な発見

  • MALINT は約1,600件の記事を含み、63.5% が Credible、36.5% が Disinformation。5つの悪意ある意図カテゴリは注釈付けされ、UCPI 20.06%、UIOA 14.63%、PASV 9.63%、PSSA 13.88%、CPV 12.31%と有意な生起を示す。
  • Binary 版の意図分類では、SLM の中で DeBERTa V3 Large および RoBERTa Large が良好、LLM では GPT-4.1 Mini および Llama 3.3 70B が特定の意図において優れる。多くのカテゴリで LL M がファインチューニング済み SLM より優れている傾向。
  • Multilabel の意図検出は、ファインチューニング済み SLM(DeBERTa V3 と RoBERTa)が有利で、マイクロ/加重 F1 が約0.81–0.82程度。多くの LLM はこの設定で劣後。
  • 意図ベースの接種(IBI)は、MALINT および他のデータセット全体で検知性能を一貫して改善し、平均 F1 の向上は約2–8%(Gemini 2.0 Flash のようなモデルや長文ではより高い場合がある)。
  • 跨言語の結果では IBI が基準プロンプティングに対して平均約20%の改善を6言語で示し、特にエストニア語で強い改善を示し、ポストカットオフの未見コンテンツでも改善を維持。
  • IBI の改善はジャンル(記事 vs 投稿)および時間的分割に対して頑健で、多くのシナリオで有意な改善を示す(MALINT での McNemar 検定 0.01 水準)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。