[論文レビュー] The simulation of judgment in LLMs
この論文は、巨大言語モデルがニュースの信頼性と偏りをどう判断するかを検証し、専門家基準と出力を比較、言語マーカーを分析し、意思決定を研究するエージェント型ワークフローを提案している。
Large Language Models (LLMs) are increasingly embedded in evaluative processes, from information filtering to assessing and addressing knowledge gaps through explanation and credibility judgments. This raises the need to examine how such evaluations are built, what assumptions they rely on, and how their strategies diverge from those of humans. We benchmark six LLMs against expert ratings--NewsGuard and Media Bias/Fact Check--and against human judgments collected through a controlled experiment. We use news domains purely as a controlled benchmark for evaluative tasks, focusing on the underlying mechanisms rather than on news classification per se. To enable direct comparison, we implement a structured agentic framework in which both models and nonexpert participants follow the same evaluation procedure: selecting criteria, retrieving content, and producing justifications. Despite output alignment, our findings show consistent differences in the observable criteria guiding model evaluations, suggesting that lexical associations and statistical priors could influence evaluations in ways that differ from contextual reasoning. This reliance is associated with systematic effects: political asymmetries and a tendency to confuse linguistic form with epistemic reliability--a dynamic we term epistemia, the illusion of knowledge that emerges when surface plausibility replaces verification. Indeed, delegating judgment to such systems may affect the heuristics underlying evaluative processes, suggesting a shift from normative reasoning toward pattern-based approximation and raising open questions about the role of LLMs in evaluative processes.
研究の動機と目的
- 最先端のLLMが専門家評価に対してどの程度信頼性と政治的指向をエンコードしているかをベンチマークする。
- LLMの分類をNewsGuardとMBFCと大規模ドメインで比較する。
- LLMの信頼性判断を駆動する言語マーカーとキーワードを同定する。
- エージェント型ワークフローを通じて、LLMが内部事前知識と外部情報をどの程度利用して判断を導くかを探る。
提案手法
- ゼロショット・クローズドブック prompts を用い、ホームページ内容を含む2,302ドメインで3つのLLM(Gemini 1.5 Flash、GPT-4o mini、LLaMA 3.1 405B)を評価する。
- 信頼性と政治的指向について、NewsGuardとMBFCの専門家ベンチマークとLLM出力を比較する。
- 分類、決定要因、要約キーワードの分析と、それらの順位・頻度分布を分析する。
- LLMs が外部情報を取得し、他のモデルと相互作用して判断を洗練させるエージェント型ワークフローを調査する。
- ドメインURLのみ prompts で与えた場合の、内容ベース vs 事前知識効果を区別する際の性能を評価する。
実験結果
リサーチクエスチョン
- RQ1最先端のLLMは専門家ベンチマークと比較して、信頼性と政治的指向をどのように分類するのか?
- RQ2LLMの信頼性判断を駆動する言語マーカーとキーワードは何か?
- RQ3LLMの分類は、信頼性・政治的指向の专正評価において専門家の評価と一致するのか、誤分類パターンを含めて検討できるか?
- RQ4エージェント型情報取得ワークフローは、LLMが信頼性判断に到達する過程を明らかにし、外部データに依存しているか内部事前知識に依存しているかを示せるか?
主な発見
- LLMsは信頼性の低い情報源を正確に識別する傾向があり、モデル間で85%〜97%の一致を示す;信頼性分類は特にGPT-4o miniで変動が大きい。
- MBFCの信頼性レベルでは、Low/Highには90%超の一致を示すが、中程度の信頼性のソースは一貫せず分類される(GPT-4o miniとLLaMA 3.1は信頼性が低いと判断する傾向)。
- 右寄りの媒体は誤分類されやすく、センター/左寄りの媒体は信頼性が高いと評価される傾向が強い。
- キーワード分析では、信頼性の高いドメインは中立・透明な表現や客観的フレーミングと関連し、信頼性の低いドメインはセンセーショナルさやバイアスと関連することが示される。決定語は信頼性には地域ニュースを、信頼性の低さには政治化語を強調する。
- エージェント型ワークフローは、外部情報取得を通じて判断を洗練できることを示すが、基準の使用は信頼性/非信頼性グループ間で一定、政治的指向によって変動が見られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。