[论文解读] Bad Actor, Good Advisor: Exploring the Role of Large Language Models in Fake News Detection
简要直接回答:论文显示 GPT-3.5 在针对假新闻检测方面低于经过微调的 BERT,但可以通过提供多视角推理来作为顾问;提出 ARG 将 LLM 派生的推理与 SLMs 融合,ARG-D 作为一种无推理蒸馏变体。
Detecting fake news requires both a delicate sense of diverse clues and a profound understanding of the real-world background, which remains challenging for detectors based on small language models (SLMs) due to their knowledge and capability limitations. Recent advances in large language models (LLMs) have shown remarkable performance in various tasks, but whether and how LLMs could help with fake news detection remains underexplored. In this paper, we investigate the potential of LLMs in fake news detection. First, we conduct an empirical study and find that a sophisticated LLM such as GPT 3.5 could generally expose fake news and provide desirable multi-perspective rationales but still underperforms the basic SLM, fine-tuned BERT. Our subsequent analysis attributes such a gap to the LLM's inability to select and integrate rationales properly to conclude. Based on these findings, we propose that current LLMs may not substitute fine-tuned SLMs in fake news detection but can be a good advisor for SLMs by providing multi-perspective instructive rationales. To instantiate this proposal, we design an adaptive rationale guidance network for fake news detection (ARG), in which SLMs selectively acquire insights on news analysis from the LLMs' rationales. We further derive a rationale-free version of ARG by distillation, namely ARG-D, which services cost-sensitive scenarios without querying LLMs. Experiments on two real-world datasets demonstrate that ARG and ARG-D outperform three types of baseline methods, including SLM-based, LLM-based, and combinations of small and large language models.
研究动机与目标
- 评估大型语言模型(LLMs)在假新闻检测方面是否能比小型语言模型(SLMs)更有效地工作。
- 研究来自多视角的 LLM 生成推理在检测中的帮助与阻碍。
- 开发一个实用框架,利用 LLM 作为顾问来提升基于 SLM 的假新闻检测器。
- 提供一个成本感知的变体,在推理阶段无需查询 LLM。
- 公开提供从 GPT-3.5 收集的推理以供未来研究使用。
提出的方法
- 在中文(Weibo21)和英文(GossipCop)数据集上,实证比较 GPT-3.5-turbo 提示方法(零-shot、零-shot CoT、少量样本、少量样本 CoT)与微调 BERT 的表现。
- 从文本描述、常识与事实性角度分析 LLM 生成的推理及其对检测性能的影响。
- 提出 Adaptive Rationale Guidance (ARG):一个架构,小型语言模型通过跨注意力与 LLM 派生推理进行交互,推理关于 LLM 判定及推理有用性的推理。
- 引入 ARG-D:一个蒸馏的、无推理变体,模仿 ARG 的决策行为以适用于成本敏感场景。
- 提供一个学习目标,将真实性预测与 LLM 判定预测、推理有用性评估以及蒸馏目标结合起来。
- 评估成本控制策略,在默认使用 ARG-D 的情况下,选择性查询 ARG 以在降低成本的同时达到与全 ARG 相近的性能。
实验结果
研究问题
- RQ1大型语言模型(LLMs)是否能在中英文数据集上超越经过任务微调的 SLMs,在假新闻检测方面表现更优?
- RQ2来自多视角的 LLM 生成推理在用于引导小型 LM 时,是否能提升假新闻检测?
- RQ3ARG 框架是否能超越仅使用 SLM 或仅使用 LLM 的基线,蒸馏后的 ARG-D 在成本约束下的表现如何?
- RQ4ARG 模块(LLM 判定预测器、推理有用性评估器、新闻-推理交互)对整体性能的贡献?
- RQ5无推理蒸馏(ARG-D)是否能保留 ARG 的大部分好处,同时降低推断成本?
主要发现
| 模型 | 中文 macF1 | 中文 Acc. | 英文 macF1 | 英文 Acc. |
|---|---|---|---|---|
| G1: LLM-Only | 0.725 | 0.734 | 0.676 | 0.702 |
| G2: SLM-Only Baseline | 0.753 | 0.754 | 0.737 | 0.765 |
| G3: LLM+SLM Baseline + Rationale | 0.767 | 0.769 | 0.748 | 0.777 |
| ARG | 0.784 | 0.786 | 0.764 | 0.790 |
| ARG-D | 0.771 | 0.772 | 0.756 | 0.778 |
- GPT-3.5-turbo 在两种数据集和所有提示方案下通常落后于微调后的 BERT。
- 少量样本提示提升了 LLM 的表现,但未始终超过 SLM 基线;Chain-of-Thought 在某些英语设置中比中文更有帮助。
- LLMs 提供了信息丰富的多视角推理(文本描述、常识、事实性),如果有效整合可帮助检测,但单一视角分析可能错过关键线索。
- ARG 在两套数据集的宏 F1 和准确率上始终优于仅 SLM、仅 LLM 以及简单的 LLM+SLM 基线。
- ARG-D(蒸馏的无推理变体)也超过大多数基线,在成本友好性方面具有竞争力;通过有选择地查询 ARG,可以在降低成本的同时达到接近完整 ARG 的性能。
- 消融研究显示 LLM 判定预测器和推理有用性评估器对 ARG 的有效性至关重要,而新闻-推理交互结构依然重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。