[논문 리뷰] The simulation of judgment in LLMs
이 논문은 대형 언어 모델이 뉴스의 신뢰도와 편향성을 어떻게 판단하는지 평가하고, 전문가 표준과 출력물을 비교 벤치마크하며, 언어적 표지들을 분석하고, 정보 주도적 평가를 연구하기 위한 에이전틱 워크플로를 소개한다.
Large Language Models (LLMs) are increasingly embedded in evaluative processes, from information filtering to assessing and addressing knowledge gaps through explanation and credibility judgments. This raises the need to examine how such evaluations are built, what assumptions they rely on, and how their strategies diverge from those of humans. We benchmark six LLMs against expert ratings--NewsGuard and Media Bias/Fact Check--and against human judgments collected through a controlled experiment. We use news domains purely as a controlled benchmark for evaluative tasks, focusing on the underlying mechanisms rather than on news classification per se. To enable direct comparison, we implement a structured agentic framework in which both models and nonexpert participants follow the same evaluation procedure: selecting criteria, retrieving content, and producing justifications. Despite output alignment, our findings show consistent differences in the observable criteria guiding model evaluations, suggesting that lexical associations and statistical priors could influence evaluations in ways that differ from contextual reasoning. This reliance is associated with systematic effects: political asymmetries and a tendency to confuse linguistic form with epistemic reliability--a dynamic we term epistemia, the illusion of knowledge that emerges when surface plausibility replaces verification. Indeed, delegating judgment to such systems may affect the heuristics underlying evaluative processes, suggesting a shift from normative reasoning toward pattern-based approximation and raising open questions about the role of LLMs in evaluative processes.
연구 동기 및 목표
- 최신 LLM이 신뢰도와 정치적 성향을 전문가 평가에 비해 어떻게 인코딩하는지 벤치마크한다.
- 대규모 도메인 집합에서 LLM 분류를 NewsGuard와 MBFC와 비교한다.
- LLM의 신뢰 판단에 영향을 주는 언어적 표지와 키워드를 식별한다.
- 에이전틱 워크플로를 통해 LLM이 내부 사전 정보와 외부 정보를 어떻게 활용하는지 탐구한다.
제안 방법
- 제로샷, 폐쇄형 자료를 활용한 프롬프트로 홈페이지 내용을 대상으로 2,302개 도메인에서 세 개의 LLM(Gemini 1.5 Flash, GPT-4o mini, LLaMA 3.1 405B)을 평가한다.
- LLM 출력과 NewsGuard 및 MBFC의 전문가 벤치마크를 신뢰성 및 정치적 성향 면에서 비교한다.
- 분류, 결정자, 요약 키워드와 그 순위-빈도 분포를 분석한다.
- L LM이 외부 정보를 수집하고 다른 모델과 상호작용하여 판단을 정제하는 에이전틱 워크플로를 조사한다.
- 도메인 URL만으로 프롬프트를 주었을 때 콘텐츠 기반 효과와 사전 지식 효과를 구분하여 성능을 평가한다.
실험 결과
연구 질문
- RQ1최신 LLM이 전문가 벤치마크에 비해 신뢰도와 정치적 성향을 어떻게 분류하는가?
- RQ2LLM의 신뢰 판단을 이끄는 언어적 표지와 키워드는 무엇인가?
- RQ3LLM의 분류가 신뢰도 및 정치적 성향에서 전문가 평가와 일치하는가, 오분류 패턴 포함?
- RQ4에이전틱 정보 검색 워크플로가 LLM의 신뢰 판단에 어떻게 도달하는지, 외부 데이터 의존 여부를 드러내는가?
주요 결과
- LLMs는 신뢰하지 않는 소스를 정확하게 식별하며 모델 간 일치율은 85%에서 97% 사이인 반면, GPT-4o mini의 신뢰성 분류는 더 가변적이다.
- MBFC 신뢰도 수준에 대해 모델은 낮음/높음에 대해 90% 이상 일치하지만 중간 신뢰도 소스는 불일치하게 분류되는 경향이 있다(GPT-4o mini와 LLaMA 3.1은 불신뢰로 레이블링하는 경향).
- 우파 매체는 오판되기 쉬운 반면, 센터/좌파 매체는 신뢰할 만하다고 평가되는 경향이 더 높다.
- 키워드 분석에서 신뢰 가능한 도메인은 중립적/투명한 언어와 객관적 프레이밍과 연관되며, 신뢰할 수 없는 도메인은 선정적 보도와 편향성과 연관된다; 결정자 키워드는 신뢰성에 대해 지역 뉴스, 신뢰성에 대해 정치화된 용어를 강조한다.
- 에이전틱 워크플로는 모델이 외부 정보 수집을 통해 판단을 정제할 수 있음을 보여주지만, 기준의 사용은 신뢰할 수 있는/신뢰할 수 없는 그룹 간 일관성을 보이고 정치적 성향에 따라 변동이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.