[论文解读] Stroke Lesions as a Rosetta Stone for Language Model Interpretability
本文提出 BLUM,一个框架,使用人类卒中后语言障碍-症状映射作为外部参照来评估语言模型的扰动,将LLM 的错误与 aphasia 患者脑损伤模式相关联。
Large language models (LLMs) have achieved remarkable capabilities, yet methods to verify which model components are truly necessary for language function remain limited. Current interpretability approaches rely on internal metrics and lack external validation. Here we present the Brain-LLM Unified Model (BLUM), a framework that leverages lesion-symptom mapping, the gold standard for establishing causal brain-behavior relationships for over a century, as an external reference structure for evaluating LLM perturbation effects. Using data from individuals with chronic post-stroke aphasia (N = 410), we trained symptom-to-lesion models that predict brain damage location from behavioral error profiles, applied systematic perturbations to transformer layers, administered identical clinical assessments to perturbed LLMs and human patients, and projected LLM error profiles into human lesion space. LLM error profiles were sufficiently similar to human error profiles that predicted lesions corresponded to actual lesions in error-matched humans above chance in 67% of picture naming conditions (p < 10^{-23}) and 68.3% of sentence completion conditions (p < 10^{-61}), with semantic-dominant errors mapping onto ventral-stream lesion patterns and phonemic-dominant errors onto dorsal-stream patterns. These findings open a new methodological avenue for LLM interpretability in which clinical neuroscience provides external validation, establishing human lesion-symptom mapping as a reference framework for evaluating artificial language systems and motivating direct investigation of whether behavioral alignment reflects shared computational principles.
研究动机与目标
- 通过将临床神经科学作为参照框架,激励对 LLM 可解释性的外部验证。
- 从失语数据开发症状到病变模型,将行为错误映射到大脑损伤位置。
- 评估变换器层的扰动是否产生与人类损伤模式相似的错误特征。
提出的方法
- 从慢性卒中后失语数据(N=410)中训练症状到病变模型,以从行为错误特征预测病变位置。
- 对LLM的变换器层进行系统性扰动。
- 对扰动后的LLM与人类患者进行同样的临床评估。
- 将LLM 的错误特征投影到人类病变空间,以与人类病变模式进行比较。
实验结果
研究问题
- RQ1人类病变-症状映射是否可作为对 LLM 可解释性的外部验证?
- RQ2在扰动下,LLM 的错误特征是否与失语患者的脑损伤模式相吻合?
- RQ3当应用于 LLM 时,语义型和音位型错误类型是否映射到人类的腹侧和背侧语言通路?
主要发现
- 扰动后的 LLM 错误特征在某些图像命名条件下,能够以超出随机水平的准确度预测实际病变位置(在与错误匹配的人类中达到67%的条件,p < 10^-23)。
- 在句子完成条件中,LLM 错误特征与人类数据的一致性达到68.3%(p < 10^-61)。
- 语义主导的错误类型在 LLMS 上映射到腹侧通路的病变模式,而音位主导的错误类型映射到背侧通路模式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。