[논문 리뷰] Large Language Models Are Human-Like Internally
본 논문은 대형 언어 모델의 내부 계층에서 계산된 surprisal이 최종 계층뿐 아니라 인간의 문장 처리 데이터와 행동 및 신경생리학적 측정에서 일치한다는 것을 보인다. 초기 계층은 빠른 반응에, 이후 계층은 N400 및 MAZE와 같은 느린 측정과 일치한다. 더 큰 LM은 내부 계층 안에 인지적으로 타당한 표현을 담고 있다.
Recent cognitive modeling studies have reported that larger language models (LMs) exhibit a poorer fit to human reading behavior (Oh and Schuler, 2023b; Shain et al., 2024; Kuribayashi et al., 2024), leading to claims of their cognitive implausibility. In this paper, we revisit this argument through the lens of mechanistic interpretability and argue that prior conclusions were skewed by an exclusive focus on the final layers of LMs. Our analysis reveals that next-word probabilities derived from internal layers of larger LMs align with human sentence processing data as well as, or better than, those from smaller LMs. This alignment holds consistently across behavioral (self-paced reading times, gaze durations, MAZE task processing times) and neurophysiological (N400 brain potentials) measures, challenging earlier mixed results and suggesting that the cognitive plausibility of larger LMs has been underestimated. Furthermore, we first identify an intriguing relationship between LM layers and human measures: earlier layers correspond more closely with fast gaze durations, while later layers better align with relatively slower signals such as N400 potentials and MAZE processing times. Our work opens new avenues for interdisciplinary research at the intersection of mechanistic interpretability and cognitive modeling.
연구 동기 및 목표
- 인간의 문장 처리에서 인지적 타당성을 위한 계층별 관점의 LM 유도 surprisal을 제시한다.
- 대형 LMs의 내부 계층이 인간의 행동 및 신경생리학적 데이터와 더 작거나 같은 LMs와 비해 얼마나 잘 일치하는지 검증한다.
- 다른 LM 계층에서의 surprisal이 빠른(시선, 초기 독해) 대 느린(N400, MAZE) 인간 측정과 어떻게 대응하는지 조사한다.
- 내부 계층을 고려할 때 스케일링(모델 크기)이 인지적 타당성에 어떻게 영향을 미치는지 살펴본다.
- 계층별 발견의 교차 언어적 타당성(교차 언어 실험)을 탐구한다.
제안 방법
- 중간 표현을 출력 어휘 공간으로 투영하여 내부 LM 계층에서 다음 단어 surprisal을 계산한다(로그잇 렌즈(logit-lens)와 튜닝 렌즈(tuned-lens)).
- surprisal(및 기준 특징들)을 인간 비용(SPR, FPGD, MAZE, N400)과 관계시키기 위해 선형 회귀를 사용하고 Delta Log-Likelihood(Delta LL)를 보고한다.
- SPR, FPGD, MAZE, N400 측정을 아우르는 15개의 인간 독해 데이터셋에 걸쳐 21개의 오픈 소스 LM(6–64 계층)을 평가한다.
- 데이터셋과 측정치에 걸쳐 인지적 타당성을 위한 최적 계층이 최종 계층인지 내부 계층인지 평가한다.
- 자극, 모델, 렌즈 유형, 계층 깊이(layer_depth), 측정치를 포함하는 회귀를 통해 계층 깊이 효과와 상호작용을 분석한다.

실험 결과
연구 질문
- RQ1내부 LM 계층에서 파생된 surprisal이 마지막 계층의 surprisal만큼 잘, 혹은 더 잘 인간의 문장 처리 데이터와 일치하는가?
- RQ2선택된 계층(초기 vs. 후기)이 빠른 측정(SPR/FPGD)과 느린 측정(N400/MAZE)에 대한 정합성에 어떤 영향을 미치는가?
- RQ3내부 계층을 사용할 때 LM 크기(스케일링)가 인지적 타당성에 어떤 영향을 미치는가?
- RQ4계층-측정 일치는 언어 간에 안정적인가요(교차언어 검증)?
주요 결과
- 내부 LM 계층이 인간 독해 데이터를 예측하는 데 마지막 계층보다 종종 더 잘 작동한다(Delta LL).
- 초기 LM 계층이 빠른 측정(FPGD 및 SPR)을 더 잘 모델하고, 후기 계층이 느린 측정(N400 및 MAZE)을 더 잘 모델한다.
- 내부 계층 전반에서, 최적 계층의 Delta LL을 평가할 때 더 큰 LM이 더 작은 LM보다 더 큰 인지적 타당성을 나타내는 경향이 있다.
- 계층 깊이와 측정 유형 간의 체계적 상호작용이 있어, 서로 다른 인지적 측정이 서로 다른 처리 과정을 반영한다는 견해를 뒷받침한다.
- 테스트된 설정에서 약 80%의 내부 계층이 같은 모델 계열 내에서 이전의 최적 마지막 계층 결과를 능가하여, 모델 전반에 걸친 계층별 타당성이 견고함을 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.