[論文レビュー] Large Language Models Are Human-Like Internally
論文は、大規模言語モデルの内部レイヤー(最終レイヤーだけでなく)から計算されたサープライザルが、人間の文処理データと、行動的および神経生理学的指標の両方において整合することを示しており、初期レイヤーが速い反応に、後期レイヤーがN400やMAZEのようなより遅い指標に一致する。より大きいLMは内部レイヤーに認知的に妥当な表現を含む。
Recent cognitive modeling studies have reported that larger language models (LMs) exhibit a poorer fit to human reading behavior (Oh and Schuler, 2023b; Shain et al., 2024; Kuribayashi et al., 2024), leading to claims of their cognitive implausibility. In this paper, we revisit this argument through the lens of mechanistic interpretability and argue that prior conclusions were skewed by an exclusive focus on the final layers of LMs. Our analysis reveals that next-word probabilities derived from internal layers of larger LMs align with human sentence processing data as well as, or better than, those from smaller LMs. This alignment holds consistently across behavioral (self-paced reading times, gaze durations, MAZE task processing times) and neurophysiological (N400 brain potentials) measures, challenging earlier mixed results and suggesting that the cognitive plausibility of larger LMs has been underestimated. Furthermore, we first identify an intriguing relationship between LM layers and human measures: earlier layers correspond more closely with fast gaze durations, while later layers better align with relatively slower signals such as N400 potentials and MAZE processing times. Our work opens new avenues for interdisciplinary research at the intersection of mechanistic interpretability and cognitive modeling.
研究の動機と目的
- LM誘発サープライザルの層別見方を動機付け、 human文処理における認知的妥当性を促進する。
- 大規模LMの内部レイヤーが、より小規模LMと同程度かそれ以上に、人間の行動データと神経生理学データと整合するかを検証する。
- 異なるLM層からのサープライザルが、速い指標(視線・初回読解)と遅い指標(N400・MAZE)にどのように対応するかを調べる。
- 内部レイヤーを考慮した場合、スケーリング(モデルサイズ)が認知的妥当性に与える影響を examine する。
- 層ごとの発見の言語間妥当性を検討する(跨言語実験)。
提案手法
- 中間表現を出力語彙空間へ射影して次語サープライザルを計算(logit-lensおよびtuned-lens)。
- 線形回帰を用いてサープライザル(およびベースライン特徴)と人間コスト(SPR、FPGD、MAZE、N400)を関連付け、Δログ尤度(Delta LL)を報告する。
- SPR、FPGD、MAZE、N400測定を跨ぐ、15の人間読解データセットにわたる21のオープンソースLM(6–64層)を評価する。
- 認知妥当性の最良の層が最終層か内部層かを、データセットと測定ごとに評価する。
- 刺激、モデル、レンズタイプ、layer_depth、測定を含む回帰を用いて層深さ効果と相互作用を分析する。

実験結果
リサーチクエスチョン
- RQ1内部LM層から導出したサープライザルは、最終層からのサープライザルと同等かそれ以上に人間の文処理データと整合するか。
- RQ2選択される層(早い層 vs 後の層)は、速い指標(SPR/FPGD)と遅い指標(N400/MAZE)との整合性にどう影響するか。
- RQ3LMサイズ(スケーリング)は、内部層を用いた場合の認知的妥当性にどう影響するか。
- RQ4層と測定の整合性は言語を超えて安定しているか(跨言語検証)。
主な発見
- 内部LM層は、多くの場合、同じモデルファミリー内で前回の最良の最終層よりも人間の読み取りデータの予測で優れる(ΔLL)。
- 初期LM層は速い測定値(FPGDおよびSPR)をより良くモデルし、後期層は遅い測定値(N400およびMAZE)をより良くモデルする。
- 内部層全体で、最良の層からΔLLを評価する際、より大きいLMほど小さいLMより認知的妥当性が高い傾向がある。
- 測定タイプとの層深さの体系的な相互作用が見られ、異なる人間の測定値が異なる処理段階を反映していることを支持する。
- tested settings で同じモデルファミリー内の内部層の約80%が、同じモデル群で前回の最良の最終層を上回る層級性の妥当性を示しており、層別妥当性がモデル間で堅牢である。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。