[論文レビュー] Stroke Lesions as a Rosetta Stone for Language Model Interpretability
本論文は、BLUM という、外部参照としての人間のストローク後葉症の病変-症状マッピングを用いた言語モデルの Perturbation を評価するフレームワークを提案し、LLM のエラーを aphasia 患者に観察される脳病変パターンと結びつける。
Large language models (LLMs) have achieved remarkable capabilities, yet methods to verify which model components are truly necessary for language function remain limited. Current interpretability approaches rely on internal metrics and lack external validation. Here we present the Brain-LLM Unified Model (BLUM), a framework that leverages lesion-symptom mapping, the gold standard for establishing causal brain-behavior relationships for over a century, as an external reference structure for evaluating LLM perturbation effects. Using data from individuals with chronic post-stroke aphasia (N = 410), we trained symptom-to-lesion models that predict brain damage location from behavioral error profiles, applied systematic perturbations to transformer layers, administered identical clinical assessments to perturbed LLMs and human patients, and projected LLM error profiles into human lesion space. LLM error profiles were sufficiently similar to human error profiles that predicted lesions corresponded to actual lesions in error-matched humans above chance in 67% of picture naming conditions (p < 10^{-23}) and 68.3% of sentence completion conditions (p < 10^{-61}), with semantic-dominant errors mapping onto ventral-stream lesion patterns and phonemic-dominant errors onto dorsal-stream patterns. These findings open a new methodological avenue for LLM interpretability in which clinical neuroscience provides external validation, establishing human lesion-symptom mapping as a reference framework for evaluating artificial language systems and motivating direct investigation of whether behavioral alignment reflects shared computational principles.
研究の動機と目的
- LLM の解釈性の外部検証を臨床神経科学を参照フレームとして動機づける。
- aphasia データから症状→病変モデルを構築し、行動エラーを脳損傷部位へマッピングする。
- トランスフォーマ層の Perturbation がヒトの病変パターンに似たエラープロファイルを生じるか評価する。
提案手法
- 慢性後アフセージデータ(N=410)から症状→病変モデルを学習し、行動エラープロファイルから病変部位を予測する。
- LLM のトランスフォーマ層に体系的な Perturbation を適用する。
- Perturbed LLM と人間患者に同一の臨床評価を実施する。
- LLM のエラープロファイルをヒトの病変空間へ射影し、ヒトの病変パターンと比較する。
実験結果
リサーチクエスチョン
- RQ1人間の病変-症状マッピングは LLM の解釈性の外部検証として機能し得るか。
- RQ2Perturbation 下の LLM のエラープロファイルは aphasia 患者に観察される脳病変パターンと一致するか。
- RQ3LLM に適用した場合、意味的エラーと音韻的エラーのタイプはヒトの ventral/dorsal 言語経路へマッピングされるか。
主な発見
- Perturbation 後の LLM のエラープロファイルはヒトのエラープロファイルと十分に一致し、エラー一致の人間で実際の病変を予測する能力はランダムより上で、写真命名条件の 67%(p < 10^-23)を超える。
- ペアとなる文の完成条件では LLM のエラープロファイルが人間のデータと整合し、67% を超える(p < 10^-61)。
- 意味論優位のエラーは ventral-stream 病変パターンへ、音韻優位のエラーは dorsal-stream パターンへマッピングされる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。