QUICK REVIEW

[논문 리뷰] Weakly Supervised Veracity Classification with LLM-Predicted Credibility Signals

João Leite, Olesya Razuvayevskaya|arXiv (Cornell University)|2023. 09. 14.

Misinformation and Its Impacts인용 수 11

한 줄 요약

이 논문은 지시문 조정된 LLM이 긴 기사에 대해 18개의 신뢰도 신호를 생성하도록 하고 이를 약한 감독과 결합하여 ground-truth 라벨 없이 진실성(veracity)을 예측하며 두 데이터셋에서 제로샷 및 일부 감독 학습 베이스라인보다 우수하다고 제시한다.

ABSTRACT

Credibility signals represent a wide range of heuristics typically used by journalists and fact-checkers to assess the veracity of online content. Automating the extraction of credibility signals presents significant challenges due to the necessity of training high-accuracy, signal-specific extractors, coupled with the lack of sufficiently large annotated datasets. This paper introduces Pastel (Prompted weAk Supervision wiTh crEdibility signaLs), a weakly supervised approach that leverages large language models (LLMs) to extract credibility signals from web content, and subsequently combines them to predict the veracity of content without relying on human supervision. We validate our approach using four article-level misinformation detection datasets, demonstrating that Pastel outperforms zero-shot veracity detection by 38.3% and achieves 86.7% of the performance of the state-of-the-art system trained with human supervision. Moreover, in cross-domain settings where training and testing datasets originate from different domains, Pastel significantly outperforms the state-of-the-art supervised model by 63%. We further study the association between credibility signals and veracity, and perform an ablation study showing the impact of each signal on model performance. Our findings reveal that 12 out of the 19 proposed signals exhibit strong associations with veracity across all datasets, while some signals show domain-specific strengths.

연구 동기 및 목표

텍스트 내용만이 아닌 신뢰도 신호를 이용한 자동으로 잘못된 정보 탐지 촉진.
지시문으로 조정된 LLM의 제로샷 프롬프트가 미세 조정된 분류기와 일치할 수 있는지 조사.
신뢰도 신호에 대한 Prompted Weak Supervision(PWS)이 진실성 예측에 미치는 효과 평가.
잘못된 정보 탐지에 가장 기여하는 신뢰도 신호를 식별.
두 개의 긴 기사형 잘못된 정보 데이터셋에서 강인성 시연.

제안 방법

각 신호에 대한 약한 라벨을 얻기 위해 LLM에 18개의 신뢰도 신호를 프롬프트한다.
두 단계 프롬프트 접근법 사용: 열린 형식 프롬프트 뒤에 클래스 레이블로 매핑하는 프롬프트.
LLM 출력과 신호 레이블을 매핑하기 위해 간단한 문자열 매칭을 적용하고, 대체로 매핑 프롬프트를 대안으로 사용.
GT 데이터 없이 18개의 약한 신호를 Snorkel의 레이블-모델로 집계하여 신호 정확도를 추정.
두 가지 PWS 모드 비교: (L) 레이블-모델만; (FULL) 레이블-모델에 약한 라벨로 학습된 RoBERTa-Base 분류기를 추가.
세 가지 지시문 조정 LLM(GPT-3.5-Turbo, Alpaca-LoRA-30B, OpenAssistant-30B)과 두 데이터셋에 대해 평가.

실험 결과

연구 질문

RQ1RQ1: 지시문 조정 LLM의 제로샷 프롬프트가 기사 수준의 진실성에서 GT 데이터로 미세 조정된 분류기와 동일하게 효과적인가?
RQ2RQ2: 프롬프트된 약한 감독이 제로샷 프롬프트보다 우수한가?
RQ3RQ3: 어떤 신뢰도 신호가 진실성 예측에 가장 크게 기여하는가?

주요 결과

Setting	FA-KES Accuracy	FA-KES F1-Macro	EUvsDisinfo Accuracy	EUvsDisinfo F1-Macro
Supervised ✓ RoBERTa-Base	52.9 ± 1.9	52.9 ± 1.9	77.0 ± 4.0	61.4 ± 9.0
Zero-Shot × GPT-3.5-Turbo	46.2 ± 2.5	43.3 ± 2.0	87.7 ± 5.1	83.8 ± 5.7
Zero-Shot × Alpaca-LoRA-30B	52.7 ± 0.7	34.9 ± 0.9	24.0 ± 3.5	21.1 ± 5.3
Zero-Shot × OpenAssistant-30B	52.3 ± 4.3	50.4 ± 5.5	58.7 ± 4.7	56.1 ± 3.8
Weakly Supervised × GPT-3.5-Turbo- L	47.9 ± 4.8	47.4 ± 4.3	77.0 ± 3.5	73.5 ± 4.5
Weakly Supervised × Alpaca-LoRA-30B- L	53.8 ± 1.9	53.2 ± 2.6	54.0 ± 7.0	50.4 ± 8.0
Weakly Supervised × OpenAssistant-30B- L	49.2 ± 5.5	49.1 ± 5.4	69.0 ± 9.5	63.5 ± 11.4
Weakly Supervised × GPT-3.5-Turbo- FULL	49.8 ± 3.6	49.3 ± 3.0	99.3 ± 0.6	99.0 ± 0.9
Weakly Supervised × Alpaca-LoRA-30B- FULL	53.0 ± 4.5	51.2 ± 2.9	67.0 ± 10.0	64.4 ± 12.7
Weakly Supervised × OpenAssistant-30B- FULL	55.3 ± 3.5	54.8 ± 3.6	91.3 ± 2.5	85.8 ± 5.2

신뢰도 신호를 포함한 프롬프트된 약한 감독은 데이터셋과 모델에 상관없이 제로샷 프롬프트를 일관되게 능가한다.
FULL(약한 신호 + 분류기)는 종종 최고의 성능을 보이며, 예를 들어 OpenAssistant-30B-FULL이 최고 FA-KES 점수를 달성하고 GPT-3.5-Turbo-FULL이 최고 EUvsDisinfo F1-Macro를 달성한다.
감독 RoBERTa-Base와 비교하면 FULL 방법이 EUvsDisinfo에서 더 높은 F1-Macro(99.0)를 달성하고 FA-KES에서 경쟁력 있는/강한 향상을 보인다.
OpenAssistant-30B-FULL는 FA-KES에서 55.3% 정확도 및 54.8% F1-Macro에 도달하고, EUvsDisinfo에서 91.3% 정확도 및 85.8% F1-Macro를 달성한다.
프롬프트된 PWS는 모델 간 제로샷 대비 평균 F1-Macro를 FA-KES에서 +23.1%, EUvsDisinfo에서 +92.1% 증가시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.