[논문 리뷰] Stroke Lesions as a Rosetta Stone for Language Model Interpretability
본 논문은 인간 스트로크 병변-증상 매핑을 외부 참조로 활용하는 프레임워크 BLUM을 도입하여 언어 모델의 섭동을 평가하고, LLM 오차를 실어증 환자에서 관찰된 뇌 손상 패턴과 연결합니다.
Large language models (LLMs) have achieved remarkable capabilities, yet methods to verify which model components are truly necessary for language function remain limited. Current interpretability approaches rely on internal metrics and lack external validation. Here we present the Brain-LLM Unified Model (BLUM), a framework that leverages lesion-symptom mapping, the gold standard for establishing causal brain-behavior relationships for over a century, as an external reference structure for evaluating LLM perturbation effects. Using data from individuals with chronic post-stroke aphasia (N = 410), we trained symptom-to-lesion models that predict brain damage location from behavioral error profiles, applied systematic perturbations to transformer layers, administered identical clinical assessments to perturbed LLMs and human patients, and projected LLM error profiles into human lesion space. LLM error profiles were sufficiently similar to human error profiles that predicted lesions corresponded to actual lesions in error-matched humans above chance in 67% of picture naming conditions (p < 10^{-23}) and 68.3% of sentence completion conditions (p < 10^{-61}), with semantic-dominant errors mapping onto ventral-stream lesion patterns and phonemic-dominant errors onto dorsal-stream patterns. These findings open a new methodological avenue for LLM interpretability in which clinical neuroscience provides external validation, establishing human lesion-symptom mapping as a reference framework for evaluating artificial language systems and motivating direct investigation of whether behavioral alignment reflects shared computational principles.
연구 동기 및 목표
- LLM 해석 가능성의 외부 검증을 임상의 신경과학을 참조 프레임워크로 활용한다.
- 실어증 데이터를 바탕으로 증상-손상 모델을 개발해 행동적 오차를 뇌 손상 위치와 맵핑한다.
- 트랜스포머 계층의 섭동이 인간 손상 패턴과 유사한 오류 프로필을 생성하는지 평가한다.
제안 방법
- 만성 뇌졸중 후 실어증 데이터(N=410)로부터 증상-손상 모델을 학습해 행동 오차 프로필에서 손상 위치를 예측한다.
- LLM의 트랜스포머 계층에 체계적 섭동을 적용한다.
- 섭동된 LLM과 인간 환자에게 동일한 임상 평가를 수행한다.
- LLM의 오류 프로필을 인간의 손상 공간으로 투사해 인간 손상 패턴과 비교한다.
실험 결과
연구 질문
- RQ1인간 손상-증상 매핑이 LLM 해석 가능성의 외부 검증으로 작용할 수 있는가?
- RQ2섭동 하에서 LLM의 오류 프로필이 실어증 환자에서 관찰된 뇌 손상 패턴과 일치하는가?
- RQ3의미적 오류 유형과 음운적 오류 유형이 LLM에 적용될 때 인간의 바닥-전두-언어 경로의 ventral 및 dorsal 경로에 매핑되는가?
주요 결과
- 섭동 후 LLM의 오류 프로필이 인간의 실수 프로필과 충분히 유사하여, 오차가 일치하는 인간에서 실제 손상을 예측하는 데 무작위보다 우수하며 그림 이름 짓기 조건의 67%에서 통계적으로 유의미하다(p < 10^-23).
- 섭동된 LLM의 오류 프로필이 인간 데이터와 일치하는 비율이 문장 완성 조건에서 68.3%로 나타났으며(p < 10^-61).
- 의미주의 우세 오류는 LLM에서 ventral-스트림 손상 패턴으로 매핑되고, 음운 우세 오류는 dorsal-스트림 패턴으로 매핑된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.