Skip to main content
QUICK REVIEW

[論文レビュー] UniCog: Uncovering Cognitive Abilities of LLMs through Latent Mind Space Analysis

Jiayu Liu, Yinhe Long|arXiv (Cornell University)|Jan 25, 2026
Explainable Artificial Intelligence (XAI)被引用数 0
ひとこと要約

UniCogは潜在的な心空間を用いてLLMの認知を分析し、能力特異的シグネチャを伴う共通のコアを明らかにし、潜在活性化が推論失敗時に強化されることを示しつつ、潜在情報に基づく候補優先付けによって推論精度を最大7.5%向上させる。

ABSTRACT

A growing body of research suggests that the cognitive processes of large language models (LLMs) differ fundamentally from those of humans. However, existing interpretability methods remain limited in explaining how cognitive abilities are engaged during LLM reasoning. In this paper, we propose UniCog, a unified framework that analyzes LLM cognition via a latent mind space. Formulated as a latent variable model, UniCog encodes diverse abilities from dense model activations into sparse, disentangled latent dimensions. Through extensive analysis on six advanced LLMs, including DeepSeek-V3.2 and GPT-4o, we reveal a Pareto principle of LLM cognition, where a shared reasoning core is complemented by ability-specific signatures. Furthermore, we discover that reasoning failures often manifest as anomalous intensity in latent activations. These findings opens a new paradigm in LLM analysis, providing a cognition grounded view of reasoning dynamics. Finally, leveraging these insights, we introduce a latent-informed candidate prioritization strategy, which improves reasoning performance by up to 7.5% across challenging benchmarks. Our code is available at https://github.com/milksalute/unicog.

研究の動機と目的

  • LLMsの多様な認知能力を単一の連続潜在空間(潜在心空間)に統一する。
  • モデル出力から潜在心を直接推定し、次元と具体的認知能力を関連付ける。
  • 潜在次元がさまざまな認知変種とモデル間でどのように活性化するかを特徴づける。
  • 潜在的な心が推論の正確性を符号化しており、これを用いて性能を向上させることを示す。

提案手法

  • 潜在心Zが観測活性化Xをp_theta(X|Z)で生成する潜在変数モデルを定式化する。
  • XはZを条件とした自己回帰型言語モデルによって生成される代替指標として言語を用いる。
  • ポスタリア=q_phi(Z|X)をGaussianZを生成するTransformerベースのネットワークでパラメータ化する。
  • k-スパースマッピングを介してポスタリアにスパース性を課し、潜在次元間で認知能力を分離する。
  • ELBOで訓練する:L_ELBO = E_{q_phi(Z|X)}[log p_theta(X|Z)] - KL(q_phi(Z|X)||p(Z))。
  • p_theta(X|Z)をXを入力として近似するためにTransformerベースの条件付き言語モデルとしてM_likeを実装する。

実験結果

リサーチクエスチョン

  • RQ1LLMsにおける異なる認知能力をエンコードする際の潜在心空間の構造はどうなるか。
  • RQ2潜在活性化は共通の推論コアとモデル間の能力特異的シグネチャを示すだろうか。
  • RQ3潜在活性化はより難しい認知変種でどのように増幅し、推論正確性とどう関連するか。
  • RQ4潜在心信号を活用して、候補優先付けによるLLM推論の信頼性を改善できるか。

主な発見

  • 潜在心はパレートの原理に従う:共有コアと6つのLLMにわたるスパースな能力特異シグネチャ。
  • 認知変種間で活性化される次元の重なりは約82%-97%で、変種間のロバストなクラスタリングを示す。
  • 推論変種は潜在心の活性化を1.1×〜2.0×増幅し、より ill-posed な変種ほど強い効果を示す。
  • 潜在活性化は誤例で強化され、一部の次元で活性化量が>2×となる。
  • 潜在心は推論の正確性を明示的に符号化しており、潜在情報に基づく候補優先付けを可能にし、4つのベンチマークで精度を最大7.5%改善する。
  • 潜在情報ベースのアプローチは、O(N) API呼び出しを伴う代替手法と同等かそれ以上の性能を、独自・オープンソースモデル双方で達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。