[논문 리뷰] Accuracy and Political Bias of News Source Credibility Ratings by Large Language Models
챗GPT가 뉴스 매체의 신뢰도를 평가할 수 있으며 그 평가가 인간 전문가와는 보통 수준으로 일치한다(rho = 0.54); 이진 분류에서 AUC = 0.89를 달성하며 다국어 및 풍자 도메인에서도 낮은 비용(~$3로 7,523개 도메인)을 처리할 수 있다.
Search engines increasingly leverage large language models (LLMs) to generate direct answers, and AI chatbots now access the Internet for fresh data. As information curators for billions of users, LLMs must assess the accuracy and reliability of different sources. This paper audits nine widely used LLMs from three leading providers -- OpenAI, Google, and Meta -- to evaluate their ability to discern credible and high-quality information sources from low-credibility ones. We find that while LLMs can rate most tested news outlets, larger models more frequently refuse to provide ratings due to insufficient information, whereas smaller models are more prone to making errors in their ratings. For sources where ratings are provided, LLMs exhibit a high level of agreement among themselves (average Spearman's $ρ= 0.79$), but their ratings align only moderately with human expert evaluations (average $ρ= 0.50$). Analyzing news sources with different political leanings in the US, we observe a liberal bias in credibility ratings yielded by all LLMs in default configurations. Additionally, assigning partisan roles to LLMs consistently induces strong politically congruent bias in their ratings. These findings have important implications for the use of LLMs in curating news and political information.
연구 동기 및 목표
- 챗GPT가 대규모 뉴스 매체 집합의 신뢰도를 평가할 수 있는지 평가한다.
- 챗GPT 평가와 인간 전문가 판단(Lin et al., MBFC, NewsGuard) 간의 일치 정도를 정량화한다.
- 비영어권 및 풍자 도메인에서의 성능을 평가한다.
- 허위 정보 연구 및 매체 이해력 향상에서 LLM 사용의 시사점을 논의한다.
제안 방법
- Tranco 인기 목록에서 7,523개 뉴스 도메인의 하위 집합을 수집하고 0–1 척도로 제로샷 설정에서 신뢰도를 평가하도록 ChatGPT에 지시한다.
- 온도 0과 추가 JSON 형식 지침으로 OpenAI API gpt-3.5-turbo-0301를 사용하여 도메인 평가를 얻는다.
- 약 7,523개 도메인을 다섯 개의 동시 프로세스로 처리하며 약 2시간이 걸리고 비용은 ~$3이다.
- 비교를 위해 인간 전문가 평가(Lin et al. 집계, MBFC, NewsGuard)를 0–1로 재스케일링한다.
- 스피어만 상관계수 ρ로의 상관관계를 평가하고 AUC와 F1 점수로 이진 분류 성능을 평가한다.
실험 결과
연구 질문
- RQ1제로샷 설정에서 ChatGPT가 광범위한 뉴스 매체의 신뢰도를 평가할 수 있는가?
- RQ2다양한 언어와 풍자 소스에 걸쳐 ChatGPT의 평가가 인간 전문가 판단과 얼마나 잘 상관하는가?
- RQ3ChatGPT 평가는 낮은 신뢰도 매체를 식별하는 효과적인 분류기로 작동할 수 있는가?
- RQ4영어 도메인과 비영어 도메인, 풍자 사이트를 포함하여 성능 차이가 무엇인가?
주요 결과
- ChatGPT는 7,523개 도메인 중 7,282개를 평가했으며 정보 부족으로 241개 도메인에서 오류가 발생했다.
- ChatGPT 평가는 인간 전문가 평가와 보통 수준의 상관관계를 보이며(스피어만 ρ = 0.54, p < 0.001).
- NewsGuard 및 MBFC의 이진 레이블과 비교할 때 ChatGPT는 AUC 0.89를 달성한다.
- 임계값을 0.5 근처로 사용할 때 최상의 F1 점수(대략 0.73은 NewsGuard, 0.63은 MBFC)를 얻는다.
- 언어에 따라 상관관계가 다르며 영어 매체는 NewsGuard(예: ρ ≈ 0.51) 및 MBFC(ρ ≈ 0.60 총계)와 유의미한 상관을 보이고, 비영어 매체도 유의한 상관을 보인다(예: MBFC 비영어 ρ ≈ 0.65; 이탈리아어 ρ ≈ 0.38).
- 챗GPT는 풍자 웹사이트를 식별하는 능력을 일부 보이며(MBFC 풍자 목록에서 77.4% 인식) 맥락적 정당화로 응답의 근거를 제시할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.