[论文解读] MALicious INTent Dataset and Inoculating LLMs for Enhanced Disinformation Detection
Introduce MALINT,即首个对英语语料库中带有恶意意图的错inf信息进行标注的语料库,对12个语言模型进行意图分类基准测试,并提出基于意图的免疫干预以提升跨体裁与跨语言的零样本错信息检测能力。
The intentional creation and spread of disinformation poses a significant threat to public discourse. However, existing English datasets and research rarely address the intentionality behind the disinformation. This work presents MALINT, the first human-annotated English corpus developed in collaboration with expert fact-checkers to capture disinformation and its malicious intent. We utilize our novel corpus to benchmark 12 language models, including small language models (SLMs) such as BERT and large language models (LLMs) like Llama 3.3, on binary and multilabel intent classification tasks. Moreover, inspired by inoculation theory from psychology and communication studies, we investigate whether incorporating knowledge of malicious intent can improve disinformation detection. To this end, we propose intent-based inoculation, an intent-augmented reasoning for LLMs that integrates intent analysis to mitigate the persuasive impact of disinformation. Analysis on six disinformation datasets, five LLMs, and seven languages shows that intent-augmented reasoning improves zero-shot disinformation detection. To support research in intent-aware disinformation detection, we release the MALINT dataset with annotations from each annotation step.
研究动机与目标
- 将MALINT定义为一个高质量的英文错信息语料库,具有恶意意图标注并由专家事实核查协作完成。
- 在MALINT上对二元和多标签的恶意意图分类进行小型与大型语言模型基准测试。
- 开发并测试基于意图的免疫干预(IBI),以在不同数据集和语言中提升LLMs的零样本错信息检测能力。
- 公开数据集、提示词和代码库,以支持基于意图的错信息检测研究。)
- method:
- 将MALINT从约1600篇来自多源的在线文章构建而来,按可信度(Credible vs Disinformation)分类,并在多标签设定下对五种恶意意图类型(UCPI、CPV、UIOA、PSSA、PASV)进行标注。
- 在二元与多标签意图分类上评估12种语言模型(SLMs:BERT、RoBERTa、DeBERTa、DistilBERT;LLMs:GPT-4o Mini、GPT-4.1 Mini、Gemini 2.0 Flash、Gemma 3、Llama 3.3 70B),进行2000多次的微调与零样本提示实验。
- 提出并测试基于意图的免疫干预(IBI):生成含有推理的意图分析,提供外部意图知识和任务指引,并使用威胁+反驳性预防提示以提升零样本错信息检测。
- 在MALINT以及另外五个数据集(ISOT Fake News、CoAID、EUDisinfo、ECTF、EUvsDisinfo)上,在英语及六种语言中,结合体裁与时间划分,使用McNemar检验确定显著性。
提出的方法
- Construct MALINT from ~1,600 online articles across multiple sources categorized by credibility (Credible vs Disinformation) and annotated for five malicious intent types (UCPI, CPV, UIOA, PSSA, PASV) in a multilabel setup.
- Evaluate 12 language models (SLMs: BERT, RoBERTa, DeBERTa, DistilBERT; LLMs: GPT-4o Mini, GPT-4.1 Mini, Gemini 2.0 Flash, Gemma 3, Llama 3.3 70B) on binary and multilabel intent classification with 2,000+ experiments on fine-tuning and zero-shot prompting.
- Propose and test intent-based inoculation (IBI): generate an intent analysis with rationale, supply external intent knowledge and task guidance, and use a threat + refutational preemption prompt to improve zero-shot disinformation detection.
- Assess IBI across MALINT and five other datasets (ISOT Fake News, CoAID, EUDisinfo, ECTF, EUvsDisinfo) in English and six languages, using genre and temporal splits and McNemar’s test for significance.
实验结果
研究问题
- RQ112种LM在英文文本的二元与多标签设置下能否准确检测恶意意图?
- RQ2通过基于意图的免疫干预引入的恶意意图知识是否能提升跨体裁、时间段与语言的零样本错信息检测?
- RQ3意图感知推理在跨语言(包括低资源语言)中的表现如何?
- RQ4MALINT的标注可靠性如何,意图共现有哪些模式?
- RQ5基于意图的免疫干预是否对截断后未见的内容具有鲁棒性?
主要发现
- MALINT包含1600篇文章,其中63.5%为Credible,36.5%为Disinformation;五种恶意意图类别的标注呈现显著的流行性(UCPI 20.06%、UIOA 14.63%、PASV 9.63%、PSSA 13.88%、CPV 12.31%)。
- 二元意图分类显示DeBERTa V3 Large与RoBERTa Large在SLMs中表现突出;而GPT-4.1 Mini与Llama 3.3 70B在某些意图上在LLMs中表现优异;在某些类别上,LLMs总体优于微调的SLMs。
- 多标签意图检测更青睐于微调的SLMs(DeBERTa V3与RoBERTa),最佳微均值F1约为0.81–0.82,而许多LLMs在此设定上落后。
- 基于意图的免疫干预(IBI)在MALINT及其他数据集上持续提升错信息检测,平均F1提升约2–8%(对某些模型如Gemini 2.0 Flash与较长文本提升更显著)。
- 跨语言结果显示IBI在六种语言中对基线提示平均提升约20%,在爱沙尼亚语等语言中提升尤为显著,并对截断后、未见内容保持提升。
- IBI在跨体裁(文章与社交帖文)和时间分割上的改进鲁棒,在大多数情景中显著改善(McNemar检验,MALINT0.01水平显著)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。