[論文レビュー] Scalable Text-Embedding-informed Cognitive Diagnosis of Large Language Models
要約: 本研究は、埋め込み情報を取り入れた事前分布を用いて Q-マトリクスを学習し、SAEM を用いて潜在属性とアイテムパラメータを同時推定することで、LLM の評価をスケーラブルな認知診断フレームワークへと拡張し、大規模ベンチマーク上で細粒度の診断を実現する。
Large language models (LLMs) have achieved remarkable performance on diverse benchmarks, yet existing evaluation practices largely rely on coarse summary metrics that obscure underlying reasoning abilities. In this work, we propose novel methodologies to adapt cognitive diagnosis models (CDMs) in psychometrics to LLM evaluation, enabling fine-grained diagnosis via multidimensional discrete capability profiles and interpretable characterizations of LLM strengths and weaknesses. First, to enable CDM-based evaluation at benchmark scale (more than 1000 items), we propose a scalable method that jointly estimates LLM mastery profiles and the item-attribute Q-matrix, addressing key challenges posed by high-dimensional latent attributes (K > 20), large item pools, and the prohibitive computational cost of existing marginal maximum likelihood-based estimation. Second, we incorporate item-level textual information to construct AI-embedding-informed priors for the Q-matrix, stabilizing high-dimensional estimation while reducing reliance on costly human specification. We develop an efficient stochastic-approximation algorithm to jointly estimate LLM mastery profiles and the Q-matrix that balances data fit with text-embedding-informed priors. Simulation studies demonstrate accurate parameter recovery. An application to the MATH Level 5 benchmark illustrates the practical utility of our method for LLM evaluation and uncovers useful insights into LLMs' fine-grained capabilities.
研究の動機と目的
- LLM 評価の集計的正確さを超えた、構造化された多次元能力プロファイルを提案する動機付け。
- アイテム-テキスト埋め込みを活用して事前構造を導く、スケーラブルな Q-マトリクス学習を開発する。
- 高次元の K および大規模アイテムプール J に対して観測者数 N の下で共同推定アルゴリズムを提案する。
- 高次元・ベンチマーク規模の領域での一貫性保証を理論的に提供する。
- 大規模な数学ベンチマークで実用的な有用性を示し、LLM の細粒度能力を明らかにする。
提案手法
- DINA 認知診断モデルを採用し、アイテム反応を多次元潜在属性プロファイルに結びつける。
- BERTopic、UMAP、階層クラスタリングを用いたアイテム-質問-解答の埋め込みから、埋め込み情報を用いた参照 Q-マトリクス Q^(R) を構築する。
- MAP フレームワーク内で Q-マトリクス推定を導く prior P(Q | Q^(R)) を導入する。
- prior の下で潜在属性 A、Q、アイテムパラメータ (c, g) を反復的に更新するスケーラブルな確率的近似 EM(SAEM)アルゴリズムを開発する。
- アイテム分離度と事前強度に依存する速さで、N、J、K が共に発散する三重漸近的枠組みで一貫性結果を証明する。
- K=15, 30 および J=1000, 2000 の大規模シミュレーションでパラメータ回復と Q-マトリクス学習性能を示し、MATH Level 5 ベンチマークに 2,765 個の LLM と 903 アイテムを適用する。
実験結果
リサーチクエスチョン
- RQ1埋め込みベースのテキスト priors に拡張された応答データから、スケール時に Q-マトリクスを学習できるか。
- RQ2埋め込み情報を用いた事前ガイダンスは、LLM 評価における高次元 CDM の安定性と解釈性を改善するか。
- RQ3N、J、K が同時に増加する場合に、SAEM 推定量は潜在属性プロファイルと Q-マトリクスの項目を一貫して回復できるか。
- RQ4MATH Level 5 のような大規模ベンチマークで、LLM の細粒度能力が意味のある属性クラスタへどのように整理されるか。
主な発見
- 埋め込み由来の Q^(R) は、学習された Q-マトリクスに反映されるセマンティブに一貫した能力グループにアイテムを分割する。
- 埋め込み情報を用いた MAP 推定は、2^K の潜在プロフィールを列挙せずに A と Q のスケーラブルな更新を可能にする。
- SAEM は N、J、K に対して線形スケールし、高次元領域下でも正確なパラメータ回復を達成する。
- シミュレーション研究は、K=15 または 30、J=2000 までで、さまざまな N に対して Q-マトリクスと潜在プロフィールの回復が正確であることを示す。
- MATH Level 5 への適用で 2,765 LLM と 903 アイテムから、解釈可能な属性ラベルと「事前合意」「手続き的補強」「構造的再分類」などのパターンを持つ 28 グループの Q-マトリクスを得た。
- 理論的一貫性の結果(定理1)は、高次元で N、J、K が共に増加する場合の回復保証を、有限サンプルのレートを明示して確立する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。