Skip to main content
QUICK REVIEW

[论文解读] UniCog: Uncovering Cognitive Abilities of LLMs through Latent Mind Space Analysis

Jiayu Liu, Yinhe Long|arXiv (Cornell University)|Jan 25, 2026
Explainable Artificial Intelligence (XAI)被引用 0
一句话总结

UniCog 通过潜在心智空间分析 LLM 认知,揭示了具有能力特征的核心,以及潜在激活在推理失败时的增强,同时实现潜在信息驱动的候选排序,推理准确性提升高达 7.5%。

ABSTRACT

A growing body of research suggests that the cognitive processes of large language models (LLMs) differ fundamentally from those of humans. However, existing interpretability methods remain limited in explaining how cognitive abilities are engaged during LLM reasoning. In this paper, we propose UniCog, a unified framework that analyzes LLM cognition via a latent mind space. Formulated as a latent variable model, UniCog encodes diverse abilities from dense model activations into sparse, disentangled latent dimensions. Through extensive analysis on six advanced LLMs, including DeepSeek-V3.2 and GPT-4o, we reveal a Pareto principle of LLM cognition, where a shared reasoning core is complemented by ability-specific signatures. Furthermore, we discover that reasoning failures often manifest as anomalous intensity in latent activations. These findings opens a new paradigm in LLM analysis, providing a cognition grounded view of reasoning dynamics. Finally, leveraging these insights, we introduce a latent-informed candidate prioritization strategy, which improves reasoning performance by up to 7.5% across challenging benchmarks. Our code is available at https://github.com/milksalute/unicog.

研究动机与目标

  • 将 LLM 的多样认知能力统一到一个连续的潜在空间(潜在心智空间)。
  • 直接从模型输出推断潜在心智并将维度与具体认知能力相关联。
  • 描述潜在维度在不同认知变体和模型中的激活方式。
  • 证明潜在心智编码推理正确性,并利用此来提升性能。

提出的方法

  • 建立一个潜在变量模型,其中潜在心智 Z 通过 p_theta(X|Z) 生成观测激活 X。
  • 使用语言作为代理似然:X 由在 Z 条件下的自回归语言模型产生。
  • 用一个基于 Transformer 的网络对后验 q_phi(Z|X) 进行参数化,产生高斯 Z。
  • 通过 k-sparse 映射在后验中引入稀疏性,以在潜在维度间解耦认知能力。
  • 以 ELBO 训练:L_ELBO = E_{q_phi(Z|X)}[log p_theta(X|Z)] - KL(q_phi(Z|X)||p(Z))。
  • 实现 M_like 作为一个 Transformer 基于条件的语言模型,使用 X 作为输入来近似 p_theta(X|Z)。

实验结果

研究问题

  • RQ1在对 LLM 编码不同认知能力时,潜在心智空间的结构是什么?
  • RQ2潜在激活是否揭示了一个共享的推理核心以及跨模型的能力特征?
  • RQ3潜在激活如何在更难的认知变体中放大,并与推理正确性相关?
  • RQ4是否可以利用潜在心智信号通过候选排序来提高 LLM 推理的可靠性?

主要发现

  • 潜在心智遵循帕累托原则:一个共享核心加上在六个 LLM 中稀疏、能力特定的特征。
  • 在认知变体之间活化的维度约 82%-97% 重叠,表明跨变体聚类具有鲁棒性。
  • 推理变体将潜在心智激活放大 1.1× 到 2.0×,对更难的问题变体有更强的效应。
  • 潜在激活在错误情形中被强化,某些维度的激活幅度 >2×。
  • 潜在心智明确编码推理正确性,使得基于潜在信息的候选排序在四个基准测试上的准确性提升至最高 7.5%。
  • 基于潜在信息的方法在与 O(N) 调用的对比中,与专有和开源模型的性能相当或优于其他方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。