Skip to main content
QUICK REVIEW

[논문 리뷰] Layer-0 Suppressors Ground Hallucination Inevitability: A Mechanistic Account of How Transformers Trade Factuality for Hedging

Kalai, Adam Tauman, Nachum, Ofir|ArXiv.org|2025. 09. 04.
Topic Modeling인용 수 14
한 줄 요약

논문은 언어 모델의 환각이 표준 사전학습 및 평가 체제에서 불가피하다고 주장하고, 이를 이진 분류 오류와 연관지으며, 환각을 줄이기 위해 벤치마크 점수 재평가를 사회기술적으로 제안한다.

ABSTRACT

Layer-0 “suppressor” heads explain why LMs trade factuality for hedging. In GPT-2 Medium, ablating heads {0:2, 0:4, 0:7} increases logit-difference (ΔLD) by 0.40–0.85 across four single-token probes and improves calibration (ECE 0.122 → 0.091). Path patching shows ≈67% of head 0:2’s effect is mediated by the Layer-0 → Layer-11 residual pathway, consistent with incentive-driven “hallucination inevitability.” Mistral-7B exhibits an architecture-adapted variant. We include multi-seed runs (where feasible), bootstrap CIs over prompts, a small free-run check, and a minimal OV-steer intervention that smoothly modulates ΔLD/ECE without harming a non-target probe. Scope: decoder-only models, short prompts, Mac MPS (no broad CUDA replication).

연구 동기 및 목표

  • 대형 언어 모델의 학습 목표 및 평가 설정에서 환각이 어떻게 발생하는지 설명한다.
  • 사전학습 오류가 Is-It-Valid(바이너리 분류)로 축약되는지 보여주고 환각 비율의 하한을 도출한다.
  • 현재 벤치마크 아래에서의 학습 후 환각의 지속성을 분석한다.
  • 불확실성 보상을 줄이기 위한 벤치마크 점수 재고를 통한 사회기술적 완화책을 제안한다.

제안 방법

  • Is-It-Valid(IIV) 바이너리 분류 문제를 생성으로 환원하여 생성 오차율과 IIV 오분류율 사이의 경계(bound)를 도출한다.
  • 프롬프트와 맥락(c, r)을 포함하는 IIV 환원 일반화(공동분포 및 임계값 기반 분류기 포함)
  • 기본 모델의 오류를 이끄는 요인들(임의의 사실, 열악한 모델, 보정)을 특징짓고 이를 환각의 불가피성과 연결한다.
  • 다양한 설정에서의 환각 비율과 사전학습/사후학습 다이내믹스를 연결하는 이론적 결과(정리 1–4)를 제공한다.
  • 보정 측정과 교차 엔트로피 학습이 일반적인 학습에서 작은 보정 매개변수 δ의 존재를 시사하는지 논의한다.

실험 결과

연구 질문

  • RQ1표준 사전학습 목표 및 학습 데이터에 따라 환각이 통계적으로 불가피한가?
  • RQ2프롬프트와 평가 체계가 실제 오류와 생성된 환각 간의 관계에 어떤 영향을 미치는가?
  • RQ3기저 모델의 오류를 야기하는 통계적 요인은 무엇이며, 이것이 환각률로 어떻게 번역되는가?
  • RQ4벤치마크 설계와 점수가 불확실하거나 추측 출력의 보상을 강화하는 것을 어떻게 줄일 수 있는가?

주요 결과

  • 사전학습 후의 환각 비율은 학습 데이터에서 고유 사실의 비율과 오차 집합의 크기의 함수에 의해 하한이 주어지며, 현실적인 데이터 하에서 불가피함을 시사한다.
  • 불확실성에 페널티를 부여하는 사후학습 벤치마크는 모델이 불확실할 때 자제하기보다 시험을 치르는 것을 최적화하기 때문에 환각을 지속시키는 경향을 강화한다.
  • 보정된 기본 모델도 표준 교차 엔트로피 목표 하에서 여전히 환각을 보일 수 있으며, 작은 보정 변화(delta)가 일반적으로 최적 손실과 함께 발생한다.
  • 프롬프트 확장을 통한 IIV 프레임워크의 일반화는 대화 설정 전반에서 현상의 보편성을 보이는 유사한 경계(bound)를 산출한다.
  • 본 연구는 감독적 이진 분류 오분류를 생성 오류와 연결하는 새로운 축소를 제시하며, 트랜스포머 특성에 의존하지 않는 새로운 환원이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.