[论文解读] Scalable Text-Embedding-informed Cognitive Diagnosis of Large Language Models
本论文通过学习带有嵌入信息先验的Q矩阵并联合估计潜在属性与项目参数,提出一个可扩展的认知诊断框架,用于评估大语言模型(LLMs),实现对大基准的细粒度、可扩展诊断,利用SAEM进行估计。
Large language models (LLMs) have achieved remarkable performance on diverse benchmarks, yet existing evaluation practices largely rely on coarse summary metrics that obscure underlying reasoning abilities. In this work, we propose novel methodologies to adapt cognitive diagnosis models (CDMs) in psychometrics to LLM evaluation, enabling fine-grained diagnosis via multidimensional discrete capability profiles and interpretable characterizations of LLM strengths and weaknesses. First, to enable CDM-based evaluation at benchmark scale (more than 1000 items), we propose a scalable method that jointly estimates LLM mastery profiles and the item-attribute Q-matrix, addressing key challenges posed by high-dimensional latent attributes (K > 20), large item pools, and the prohibitive computational cost of existing marginal maximum likelihood-based estimation. Second, we incorporate item-level textual information to construct AI-embedding-informed priors for the Q-matrix, stabilizing high-dimensional estimation while reducing reliance on costly human specification. We develop an efficient stochastic-approximation algorithm to jointly estimate LLM mastery profiles and the Q-matrix that balances data fit with text-embedding-informed priors. Simulation studies demonstrate accurate parameter recovery. An application to the MATH Level 5 benchmark illustrates the practical utility of our method for LLM evaluation and uncovers useful insights into LLMs' fine-grained capabilities.
研究动机与目标
- 推动超越聚合准确率,构建面向LLM评估的结构化、多维能力画像。
- 开发可扩展的Q矩阵学习,利用项目-文本嵌入来为先验结构提供信息。
- 提出一个联合估计算法,在高维K与大规模项目池J的情况下,在N个观测者下实现扩展。
- 在高维、基准规模的情境中提供理论一致性保证。
- 在大型数学基准上展示实用性,揭示LLM的细粒度能力。
提出的方法
- 采用DINA认知诊断模型,将项目反应映射到多维潜在属性画像。
- 通过BERTopic与UMAP和层次聚类,从项目-题目-解答嵌入构建带嵌入信息的参考Q矩阵Q^(R)。
- 在MAP框架中引入先验P(Q | Q^(R))以引导Q矩阵估计。
- 开发可扩展的随机逼近EM(SAEM)算法,在先验下迭代更新潜在属性A、Q和项目参数(c, g)。
- 在三重渐进行为N、J、K发散的情形下证明一致性结果,收敛速率取决于项目分离度和先验强度。
- 在高K(15、30)和大J(1000、2000)的仿真实验中展示参数回收与Q矩阵学习性能,并将其应用于MATH Level 5基准,涉及2765个LLM和903个项目。
实验结果
研究问题
- RQ1是否能够从带有嵌入文本先验的响应数据中大规模学习Q矩阵?
- RQ2嵌入信息驱动的先验引导是否提升LLM评估中高维CDM的稳定性与可解释性?
- RQ3当N、J、K共同增长时,联合SAEM估计器是否能够一致地恢复潜在属性画像与Q矩阵条目?
- RQ4在如MATH Level 5这样的大基准上,LLM的细粒度能力如何组织成语义上有意义的属性簇?
主要发现
- 嵌入派生的Q^(R)将项目划分为在学习出的Q矩阵中具有语义上连贯的能力组。
- 带嵌入信息的MAP估计在不枚举2^K潜在画像的情况下实现对A和Q的可扩展更新。
- SAEM在N、J、K线性规模扩展下实现可扩展性,在高维情形下也能实现准确的参数回收。
- 仿真研究表明在K=15或30、J至多2000时,能够实现对Q矩阵与潜在画像的准确回收,适用于多种N。
- 将其应用于MATH Level 5,涉及2765个LLMs和903个项目时,得到一个28组的Q矩阵,具可解释的属性标签与模式,如先验一致性、过程性增补、结构性再分类等。
- 理论一致性结果(定理1)在N、J、K共同增长的高维情形下给出恢复保证,并给出有限样本速率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。