QUICK REVIEW

[논문 리뷰] Bad Actor, Good Advisor: Exploring the Role of Large Language Models in Fake News Detection

Beizhe Hu, Qiang Sheng|arXiv (Cornell University)|2023. 09. 21.

Misinformation and Its Impacts참고 문헌 44인용 수 15

한 줄 요약

본 논문은 GPT-3.5가 파인튜닝된 BERT보다 가짜 뉴스 탐지에서 성능이 떨어지지만 다각도의 합리화를 제공하는 어드바이저로 활용될 수 있음을 보여주며; LLM에서 도출된 합리화를 SLM과 융합하기 위한 ARG와 합리화가 없는 증류 변형인 ARG-D를 제안한다.

ABSTRACT

Detecting fake news requires both a delicate sense of diverse clues and a profound understanding of the real-world background, which remains challenging for detectors based on small language models (SLMs) due to their knowledge and capability limitations. Recent advances in large language models (LLMs) have shown remarkable performance in various tasks, but whether and how LLMs could help with fake news detection remains underexplored. In this paper, we investigate the potential of LLMs in fake news detection. First, we conduct an empirical study and find that a sophisticated LLM such as GPT 3.5 could generally expose fake news and provide desirable multi-perspective rationales but still underperforms the basic SLM, fine-tuned BERT. Our subsequent analysis attributes such a gap to the LLM's inability to select and integrate rationales properly to conclude. Based on these findings, we propose that current LLMs may not substitute fine-tuned SLMs in fake news detection but can be a good advisor for SLMs by providing multi-perspective instructive rationales. To instantiate this proposal, we design an adaptive rationale guidance network for fake news detection (ARG), in which SLMs selectively acquire insights on news analysis from the LLMs' rationales. We further derive a rationale-free version of ARG by distillation, namely ARG-D, which services cost-sensitive scenarios without querying LLMs. Experiments on two real-world datasets demonstrate that ARG and ARG-D outperform three types of baseline methods, including SLM-based, LLM-based, and combinations of small and large language models.

연구 동기 및 목표

대형 언어 모델(LLM)이 소형 언어 모델(SLM)에 비해 가짜 뉴스를 효과적으로 탐지할 수 있는지 평가한다.
다양한 관점의 LLM 생성 합리화가 탐지에 도움을 주는지 여부를 조사한다.
SLM 기반 가짜 뉴스 탐지기의 성능 향상을 위해 LLM을 자문가로 활용하는 실용 프레임워크를 개발한다.
추론 시 LLM 조회가 필요 없는 비용 인식 변형을 제공한다.
향후 연구를 위해 GPT-3.5의 합리화 수집을 공개적으로 제공한다.

제안 방법

중국어(Weibo21) 및 영어(GossipCop) 데이터셋에서 파인튜닝된 BERT와 비교하여 GPT-3.5-turbo 프롬프트 방식(zero-shot, zero-shot CoT, few-shot, few-shot CoT)을 경험적으로 비교한다.
텍스트 설명, 상식, 사실성 관점에서 LLM이 생성한 합리화와 이들의 탐지 성능에 미치는 영향을 분석한다.
Adaptive Rationale Guidance(ARG) 제안: 소형 LM이 LLM 유도 합리화와 교차 주의, LLM 판단에 대한 추론, 합리화 유용성에 대해 상호작용하는 아키텍처.
ARG-D: 합리화가 없는 증류 변형으로 ARG의 의사결정 동작을 모방해 비용 민감한 시나리오에 대응한다.
진실성 예측과 LLM 판단 예측 및 합리화 유용성 평가를 결합한 학습 목표와 증류 목표를 함께 제시한다.
ARG-D를 기본으로 사용하고 필요 시 ARG를 선택적으로 조회하는 비용 관리 전략을 제시하여 전체 ARG 성능에 비해 비용을 절감한다.

실험 결과

연구 질문

RQ1대형 언어 모델(LLM)이 중국어 및 영어 데이터셋에서 가짜 뉴스 탐지에서 작업 튜닝된 소형 모델(SLM)을 능가할 수 있는가?
RQ2다양한 관점에서 생성된 LLM 합리화가 소형 LM을 guide로 사용할 때 가짜 뉴스 탐지에 도움이 되는가?
RQ3ARG 프레임워크가 SLM 전용 및 LLM 전용 벤치마크를 능가할 수 있는가, 비용 제약하에서 증류된 ARG-D의 성능은 어떠한가?
RQ4각 ARG 모듈(LLM 판단 예측기, 합리화 유용성 평가자, 뉴스-합리화 상호작용)이 전체 성능에 기여하는 바는 무엇인가?
RQ5합리화가 없는 증류(ARG-D)가 ARG의 이점을 상당 부분 유지하면서 추론 비용을 낮출 수 있는가?

주요 결과

모델	중국어 macF1	중국어 정확도	영어 macF1	영어 정확도
G1: LLM-단독	0.725	0.734	0.676	0.702
G2: SLM-단독 기준선	0.753	0.754	0.737	0.765
G3: LLM+SLM 기준선 + 합리화	0.767	0.769	0.748	0.777
ARG	0.784	0.786	0.764	0.790
ARG-D	0.771	0.772	0.756	0.778

GPT-3.5-turbo는 일반적으로 두 데이터셋과 프롬프트 방식에서 파인튜닝된 BERT보다 성능이 떨어진다.
소샷 프롬프트는 LLM 성능을 향상시키지만 SLM 베이스라인을 일관되게 능가하지 못하며, Chain-of-Thought는 일부 설정에서 영어에 더 유리할 수 있다.
LLMs는 텍스트 설명, 상식, 사실성 등 다각적 관점의 합리화를 제공하며 이를 효과적으로 통합하면 탐지에 도움을 줄 수 있지만 단일 관점 분석은 핵심 단서를 놓칠 수 있다.
ARG는 매크로 F1 및 정확도 측면에서 두 데이터셋 모두에서 SLM만, LLM만, 그리고 순진한 LLM+SLM 벤치마크를 지속적으로 상회한다.
ARG-D는 합리화가 없는 증류 변형으로도 대부분의 벤치마크를 능가하며 비용 효율적인 경쟁력을 제공한다; 선택적 조회를 통해 전체 ARG 성능에 비해 감소된 비용으로도 일치시킬 수 있다.
절단 실험은 LLM 판단 예측기와 합리화 유용성 평가자가 ARG의 효과에 결정적이며, 뉴스-합리화 상호작용 구조는 여전히 필수적임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.