[논문 리뷰] UniCog: Uncovering Cognitive Abilities of LLMs through Latent Mind Space Analysis
UniCog는 LLM 인지력을 분석하기 위한 잠재적 마음 공간(latent mind space)을 도입하여 능력별 서명을 가진 Pareto 유사(core)을 드러내고 잠재 활성화가 추론 실패 중에 강해진다는 것을 보여주며, 잠재 정보에 기반한 후보 우선순위 지정을 가능하게 하여 추론 정확도를 최대 7.5%까지 향상시킨다.
A growing body of research suggests that the cognitive processes of large language models (LLMs) differ fundamentally from those of humans. However, existing interpretability methods remain limited in explaining how cognitive abilities are engaged during LLM reasoning. In this paper, we propose UniCog, a unified framework that analyzes LLM cognition via a latent mind space. Formulated as a latent variable model, UniCog encodes diverse abilities from dense model activations into sparse, disentangled latent dimensions. Through extensive analysis on six advanced LLMs, including DeepSeek-V3.2 and GPT-4o, we reveal a Pareto principle of LLM cognition, where a shared reasoning core is complemented by ability-specific signatures. Furthermore, we discover that reasoning failures often manifest as anomalous intensity in latent activations. These findings opens a new paradigm in LLM analysis, providing a cognition grounded view of reasoning dynamics. Finally, leveraging these insights, we introduce a latent-informed candidate prioritization strategy, which improves reasoning performance by up to 7.5% across challenging benchmarks. Our code is available at https://github.com/milksalute/unicog.
연구 동기 및 목표
- LLMs의 다양한 인지 능력을 하나의 연속 잠재 공간(latent mind space)으로 통합한다.
- 모델 출력으로부터 직접 잠재 mind를 추론하고 차원을 구체적인 인지 능력과 연관시킨다.
- 다른 인지 변형과 모델에서 잠재 차원이 어떻게 활성화되는지 특성화한다.
- 잠재 마음이 추론의 정확성을 인코드한다는 것을 입증하고 이를 성능 향상에 활용한다.
제안 방법
- 잠재 마음 Z가 관찰된 활성화 X를 통해 p_theta(X|Z)로 생성하는 잠재 변수 모델을 형식화한다.
- 언어를 대리 가능도(surrogate likelihood)로 사용한다: X는 Z에 조건부인 자기회귀 언어 모델에 의해 생성된다.
- Gaussian Z를 생성하는 Transformer 기반 네트워크로 후방분포 q_phi(Z|X)를 매개화한다.
- 잠재 차원 간의 인지 능력을 해리하기 위해 k-스 Sparse 매핑을 통해 후방의 희소성을 부여한다.
- L_ELBO = E_{q_phi(Z|X)}[log p_theta(X|Z)] - KL(q_phi(Z|X)||p(Z)).
- M_like를 X를 입력으로 사용하여 p_theta(X|Z)를 근사하는 Transformer 기반 조건부 언어 모델로 구현한다.
실험 결과
연구 질문
- RQ1LLM이 서로 다른 인지 능력을 인코딩할 때 잠재 마음 공간의 구조는 무엇인가?
- RQ2잠재 활성화가 모델 전반에 걸쳐 공유 추론 코어와 능력별 서명을 드러내는가?
- RQ3더 어려운 인지 변형에서 잠재 활성화가 어떻게 증폭되고 추론의 정확성과 어떤 관련이 있는가?
- RQ4후보 지정을 통한 잠재 마음 신호를 활용해 LLM 추론의 신뢰성을 향상시킬 수 있는가?
주요 결과
- 잠재 마음은 Pareto 원칙을 따른다: 공유 코어와 여섯 개 LLM에 걸친 희소하고 능력별 서명.
- 인지 변형 간 활성화 차원의 약 82%-97% 겹침으로 강한 크로스 변형 클러스터링을 시사한다.
- 추론 변형은 잠재 마음 활성화를 1.1×에서 2.0×까지 증폭시키며, 더 잘 안 풀리는 변형에서 더 강한 효과를 보인다.
- 오류 사례에서 잠재 활성화가 강화되며 일부 차원은 활성화 크기가 >2×를 보인다.
- 잠재 마음은 추론의 정확성을 명시적으로 인코딩하여 네 가지 벤치마크에서 최대 7.5%의 정확도 향상을 보여주는 잠재 기반 후보 우선순위를 가능하게 한다.
- 잠재 기반 접근법은 독점 및 오픈 소스 모델 전반에서 O(N) API 호출을 사용하는 대안과 동등하거나 더 우수한 성능을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.