[論文レビュー] Bad Actor, Good Advisor: Exploring the Role of Large Language Models in Fake News Detection
本論文はGPT-3.5がファインチューニング済みBERTに劣るが、多角的な根拠を提供するアドバイザーとして機能できることを示す。LLM由来の根拠をSLMと統合するためのARGを提案し、根拠なし蒸留変種としてARG-Dを提案する。
Detecting fake news requires both a delicate sense of diverse clues and a profound understanding of the real-world background, which remains challenging for detectors based on small language models (SLMs) due to their knowledge and capability limitations. Recent advances in large language models (LLMs) have shown remarkable performance in various tasks, but whether and how LLMs could help with fake news detection remains underexplored. In this paper, we investigate the potential of LLMs in fake news detection. First, we conduct an empirical study and find that a sophisticated LLM such as GPT 3.5 could generally expose fake news and provide desirable multi-perspective rationales but still underperforms the basic SLM, fine-tuned BERT. Our subsequent analysis attributes such a gap to the LLM's inability to select and integrate rationales properly to conclude. Based on these findings, we propose that current LLMs may not substitute fine-tuned SLMs in fake news detection but can be a good advisor for SLMs by providing multi-perspective instructive rationales. To instantiate this proposal, we design an adaptive rationale guidance network for fake news detection (ARG), in which SLMs selectively acquire insights on news analysis from the LLMs' rationales. We further derive a rationale-free version of ARG by distillation, namely ARG-D, which services cost-sensitive scenarios without querying LLMs. Experiments on two real-world datasets demonstrate that ARG and ARG-D outperform three types of baseline methods, including SLM-based, LLM-based, and combinations of small and large language models.
研究の動機と目的
- 大規模言語モデル(LLMs)が小規模言語モデル(SLMs)と比較して、ファイクニュースを効果的に検出できるかを評価する。
- 複数の視点から生成されたLLMの根拠が検出を助けるか妨げるかを調査する。
- SLMベースのファイクニュース検出器を改善するために、LLMsをアドバイザーとして活用する実用的なフレームワークを開発する。
- 推論時にLLMsへのクエリを不要とするコスト意識型のバリアントを提供する。
- 将来の研究のためにGPT-3.5からの根拠コレクションを公開する。
提案手法
- 中国語(Weibo21)と英語(GossipCop)データセットで、ファインチューニング済みBERTと比較して、GPT-3.5-turbo promptingアプローチ(ゼロショット、ゼロショットCoT、few-shot、few-shot CoT)を実証的に比較する。
- テキスト記述、常識、事実性の観点からLLM生成の根拠を分析し、それらが検出性能に与える影響を評価する。
- Adaptive Rationale Guidance (ARG)を提案する:小さなLMがLLM由来の根拠とクロスアテンションを介して相互作用し、LLMの判断と根拠の有用性を推論するアーキテクチャ。
- ARG-Dを導入する:コストに敏感な状況でARGの意思決定挙動を模倣する蒸留型の根拠なしバリアント。
- 真実性予測とLLM判断予測および根拠の有用性評価を組み合わせた学習目的と、蒸留目的を提供する。
- デフォルトでARG-Dを使用し、必要に応じてARGを選択的にクエリして、コストを抑えつつ全ARG性能に一致させるコスト管理戦略を評価する。
実験結果
リサーチクエスチョン
- RQ1大規模言語モデル(LLMs)は、中国語データセットと英語データセットの両方で、タスクに特化した小規模モデルを上回ることができるか。
- RQ2複数の視点からのLLM生成根拠を、小規模LMを導く際に用いるとファイクニュース検出が改善されるか。
- RQ3ARGフレームワークはSLMのみ・LLMのみのベースラインを上回ることができるか、またコスト制約下で蒸留型ARG-Dはどう性能を示すか。
- RQ4全体の性能に対する各ARGモジュール(LLM判断予測器、根拠有用性評価器、ニュースと根拠の相互作用)の寄与はどの程度か。
- RQ5根拠なし蒸留(ARG-D)はARGの利点の多くを維持しつつ推論コストを低減できるか。
主な発見
| モデル | 中国語 macF1 | 中国語 Acc | 英語 macF1 | 英語 Acc. |
|---|---|---|---|---|
| G1: LLM-Only | 0.725 | 0.734 | 0.676 | 0.702 |
| G2: SLM-Only Baseline | 0.753 | 0.754 | 0.737 | 0.765 |
| G3: LLM+SLM Baseline + Rationale | 0.767 | 0.769 | 0.748 | 0.777 |
| ARG | 0.784 | 0.786 | 0.764 | 0.790 |
| ARG-D | 0.771 | 0.772 | 0.756 | 0.778 |
- GPT-3.5-turboは、両データセットおよびプロンプティング方式のいずれにおいても、ファインチューニング済みBERTを一般的に下回る。
- Few-shot promptingはLLM性能を向上させるが、SLMベースラインを一貫して上回るわけではない。Chain-of-Thoughtは英語で中国語より効果的な状況がある。
- LLMsは、有益な多視点の根拠(テキスト記述、常識、事実性)を提供し、効果的に統合されれば検出を支援できるが、単一視点の分析は重要な手がかりを見逃す可能性がある。
- ARGは、両データセットでmacro F1と精度の点で、SLMのみ、LLMのみ、そして素朴なLLM+SLMのベースラインを一貫して上回る。
- ARG-D, 蒸留された根拠なしバリアントもほとんどのベースラインを上回り、コスト対効果の高い競争力を提供する;選択的クエリにより、ARGはコストを抑えて完全なARG性能に匹敵できる。
- アブレーション分析により、LLM判断予測器と根拠有用性評価器がARGの有効性にとって重要である一方、ニュースと根拠の相互作用構造は依然として不可欠であることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。