[논문 리뷰] Dissociating language and thought in large language models
본 논문은 형식적 언어 능력과 기능적 언어 능력을 구분하고, LLM이 언어의 형식적 측면에서는 뛰어나지만 전문 미세 조정이나 외부 모듈 없이 기능적이고 세계 지향적인 추론에서는 뒤처진다고 보여준다.
Large Language Models (LLMs) have come closest among all models to date to mastering human language, yet opinions about their linguistic and cognitive capabilities remain split. Here, we evaluate LLMs using a distinction between formal linguistic competence -- knowledge of linguistic rules and patterns -- and functional linguistic competence -- understanding and using language in the world. We ground this distinction in human neuroscience, which has shown that formal and functional competence rely on different neural mechanisms. Although LLMs are surprisingly good at formal competence, their performance on functional competence tasks remains spotty and often requires specialized fine-tuning and/or coupling with external modules. We posit that models that use language in human-like ways would need to master both of these competence types, which, in turn, could require the emergence of mechanisms specialized for formal linguistic competence, distinct from functional competence.
연구 동기 및 목표
- 형식적 언어 능력(규칙과 패턴)과 기능적 언어 능력(세상에서의 언어 사용) 사이의 구별을 고취하고 형식화한다.
- 현대의 LLM들이 대규모에서 형식적 언어 능력을 달성하는지 평가하고 추론, 세계 지식, 상황 모델링, 사회 인지와 같은 영역에서 기능적 능력의 격차를 식별한다.
- 형식적/기능적 구분을 인간의 신경과학에 뿌리를 두고 LLM의能力과 한계를 해석한다.
- 향후 언어 모델과 AGI를 구축하고 평가하는 데의 시사점을 논의한다.
제안 방법
- 언어와 사고의 분리 가능성에 대한 인지과학 및 신경과학의 기존 증거를 검토한다.
- BLiMP 및 SyntaxGym과 같은 벤치마크를 사용하여 형식적 언어 과제(계층적 구조, 장거리 종속성 등)에서 LLM의 성능을 평가한다.
- 확대 규모와 미세 조정(RLHF 등)이 영역 전반에 걸친 기능적 역량에 어떤 영향을 미치는지 분석한다.
- 내부 표현이 추상적 언어 구조를 인코딩하는지 해석하기 위한 기전적(mechanistic) 및 프로빙 관점을 제시한다.
- 모델의 행동과 인간의 신경 구조 간의 비교를 토대로 언어 처리와 비언어적 인지를 구분한다.

실험 결과
연구 질문
- RQ1LLM이 인간과 유사한 규칙 및 계층적 구조 이해에 상응하는 형식적 언어 능력을 보여주는가?
- RQ2LLM이 실제 세계 추론, 세계 지식, 사회 인지와 같은 기능적 언어 능력을 어느 정도 보여주는가?
- RQ3확대 규모, 미세 조정 및 외부 모듈의 보강이 형식적 역량에 비해 기능적 역량에 어떤 영향을 미치는가?
- RQ4신경과학 및 인지과학의 어떤 증거가 LLM에서 언어 처리와 일반 사고를 분리하는 데 지지하는가?
주요 결과
- LLMs show strong formal linguistic competence, mastering many complex linguistic phenomena as data and scale increase.
- Benchmarks like BLiMP and SyntaxGym reveal high but not perfect human-level performance on grammaticality and syntactic dependencies.
- LLMs learn abstractions and hierarchical structures, including long-distance subject–verb agreement and non-local dependencies.
- Functional competence remains patchy and highly task/domain dependent, often requiring fine-tuning or coupling with external modules to perform world knowledge, reasoning, or social-cognitive tasks.
- Formal competence improves substantially with training data, whereas functional competence gains are less dramatic and rely on specialized methods beyond scaling alone.
- The language network in humans is dissociable from non-linguistic cognition, supporting the view that language models may not fully capture human thought despite linguistic prowess.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.