[論文レビュー] Accuracy and Political Bias of News Source Credibility Ratings by Large Language Models
ChatGPT はニュース媒体の信頼性を評価でき、評価は人間の専門家と中程度に一致する(rho = 0.54);二値分類のAUC = 0.89 を達成し、多言語および風刺的ドメインにも低コストで対応可能(7,523 ドメインで約 $3)。
Search engines increasingly leverage large language models (LLMs) to generate direct answers, and AI chatbots now access the Internet for fresh data. As information curators for billions of users, LLMs must assess the accuracy and reliability of different sources. This paper audits nine widely used LLMs from three leading providers -- OpenAI, Google, and Meta -- to evaluate their ability to discern credible and high-quality information sources from low-credibility ones. We find that while LLMs can rate most tested news outlets, larger models more frequently refuse to provide ratings due to insufficient information, whereas smaller models are more prone to making errors in their ratings. For sources where ratings are provided, LLMs exhibit a high level of agreement among themselves (average Spearman's $ρ= 0.79$), but their ratings align only moderately with human expert evaluations (average $ρ= 0.50$). Analyzing news sources with different political leanings in the US, we observe a liberal bias in credibility ratings yielded by all LLMs in default configurations. Additionally, assigning partisan roles to LLMs consistently induces strong politically congruent bias in their ratings. These findings have important implications for the use of LLMs in curating news and political information.
研究の動機と目的
- ChatGPT が多数のニュース媒体の信頼性を評価できるかを評価する。
- ChatGPT の評価と人間の専門家判断(Lin ら、MBFC、NewsGuard)の整合性を定量化する。
- 非英語ドメインおよび風刺ドメインでの性能を評価する。
- 誤情報研究とメディアリテラシーにおけるLLMs の利用の意味を議論する。
提案手法
- Tranco popularity リストから 7,523 のニュースドメインのサブセットを抽出し、ゼロショット設定で信頼性を 0–1 スケールで評価するよう ChatGPT に促す。
- 温度を 0、追加の JSON 形式指示とともに OpenAI API gpt-3.5-turbo-0301 を使用してドメイン評価を取得する。
- 約7,523 ドメインを 5 つの同時プロセスで処理し、約2時間、費用は約 $3。
- 人間の専門家の評価(Lin らの統合、MBFC、NewsGuard)を比較のため 0–1 に再スケールする。
- Spearman ρ での相関を評価し、AUC および F1 スコアを用いて二値分類性能を評価する。
実験結果
リサーチクエスチョン
- RQ1ChatGPT はゼロショット設定で幅広いニュース媒体の信頼性を評価できるか?
- RQ2言語や風刺的ソースを超えて、ChatGPT の評価は人間の専門家判断とどれくらい相関するか?
- RQ3ChatGPT の評価は低信頼性の媒体を識別する有効な分類器として機能するか?
- RQ4英語ドメインと非英語ドメイン(風刺サイトを含む)での性能はどう異なるか?
主な発見
- ChatGPT は 7,523 ドメイン中 7,282 を評価した;情報不足により 241 ドメインでエラーが生じた。
- ChatGPT の評価は人間専門家の評価と中程度の相関を示す(Spearman ρ = 0.54, p < 0.001)。
- NewsGuard および MBFC の二値ラベルと比較して、ChatGPT は AUC = 0.89 を達成。
- 閾値を約 0.5 に設定すると F1 スコアが最良を示す(NewsGuard で約 0.73、MBFC で 0.63)。
- 言語によって相関は異なる;英語媒体は NewsGuard で顕著な相関(例:ρ ≈ 0.51)、MBFC で ρ ≈ 0.60 全体、非英語媒体も有意な相関を示す(例:MBFC 非英語 ρ ≈ 0.65;イタリア語 ρ ≈ 0.38)。
- ChatGPT は風刺サイトを識別するある程度の能力を示す(MBFC 風刺リストで 77.4% の認識)し、文脈的な正当化で回答を裏付けることができる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。