[論文レビュー] Do LLMs Know What They Know? Measuring Metacognitive Efficiency with Signal Detection Theory
本論文は meta-d′/M-ratio を Type-2 SDT 指標として導入し、LLM の識別(Type-1)とメタ認知的モニタリング(Type-2)を分離して評価する。メタ認知的効率はモデルとドメインによって異なり、AUROC 2 と比較してモデルのランクを反転させることがある。
Standard evaluation of LLM confidence relies on calibration metrics (ECE, Brier score) that conflate two distinct capacities: how much a model knows (Type-1 sensitivity) and how well it knows what it knows (Type-2 metacognitive sensitivity). We introduce an evaluation framework based on Type-2 Signal Detection Theory that decomposes these capacities using meta-d' and the metacognitive efficiency ratio M-ratio. Applied to four LLMs (Llama-3-8B-Instruct, Mistral-7B-Instruct-v0.3, Llama-3-8B-Base, Gemma-2-9B-Instruct) across 224,000 factual QA trials, we find: (1) metacognitive efficiency varies substantially across models even when Type-1 sensitivity is similar -- Mistral achieves the highest d' but the lowest M-ratio; (2) metacognitive efficiency is domain-specific, with different models showing different weakest domains, invisible to aggregate metrics; (3) temperature manipulation shifts Type-2 criterion while meta-d' remains stable for two of four models, dissociating confidence policy from metacognitive capacity; (4) AUROC_2 and M-ratio produce fully inverted model rankings, demonstrating these metrics answer fundamentally different evaluation questions. The meta-d' framework reveals which models "know what they don't know" versus which merely appear well-calibrated due to criterion placement -- a distinction with direct implications for model selection, deployment, and human-AI collaboration. Pre-registered analysis; code and data publicly available.
研究の動機と目的
- モデルが何を知っているか(知識の量)と、それをどれだけ正しく使いこなせているか(知識の認識の質)を分離する必要性を動機づける。
- Type-2 Signal Detection Theory (SDT) フレームワークを提案し、LLM の信頼度におけるメタ認知的効率を分解する。
- meta-d′ と M-ratio を複数のモデルとデータセットに適用し、キャリブレーション指標だけでは見えない構造を明らかにする。
- ドメイン特異的なメタ認知効率と、信頼度方針(温度パラメータ)と容量(メタ認知容量)の影響を示す。
- 再現可能な評価を可能にするため、事前登録済みの分析と公開可能なコード/データを提供する。
提案手法
- Type-1 SDT の証拠変数として正規化対数確率(NLP)を定義。confidence 信号がアクセスできる Type-1 情報の程度を定量化するために meta-d′ を用いる。
- M-ratio = meta-d′/d′ を計算してメタ認知的効率を指標化(1 = 最適)。
- 等分散 SDT と Hautus 修正を用いて最大尤度法で meta-d′ を推定;ブートストラップ95%信頼区間をリサンプリングで推定。
- TriviaQA と Natural Questions を対象に、七つの温度で four LLMs(Llama-3-8B-Instruct, Llama-3-8B-Base, Mistral-7B-Instruct-v0.3, Gemma-2-9B-Instruct)の224,000 試行を評価。
- TriviaQA で事前登録した仮説を検証:サブオプティマルなメタ認知(M<1)、ドメイン特異的 M、Meta-d′ 対 d′ の温度によるディスソシエーション、隠れたメタ認知構造の存在。
- ドメインレベルの分析は、モデルごとに weakest なドメインを特定するためにドメイン特異的な M-ratio を使用。
- 頑健性チェックとして別のビニング、等価以外の分散 SDT、NQ での再現、サブサンプリングを含む。

実験結果
リサーチクエスチョン
- RQ1モデル間でメタ認知的効率(M-ratio)は 1 未満に落ちるか(サブオプティマルなメタ認知か)?
- RQ2TriviaQA 内の知識ドメイン間でメタ認知効率はドメイン特異的か、変動するか?
- RQ3温度はメタ認知容量を変えずに Type-2 基準をシフトするか(meta-d′ には影響しないか)?
- RQ4Type-1 感度(d′)が類似していてもメタ認知効率(M-ratio)は異なるモデルがあるか?
- RQ5AUROC 2 のランキングは confidence に基づく意思決定の M-ratio ランキングと一致するか?
主な発見
- メタ認知効率はモデルごとに異なり、Mistral は d′ が最も高いが M-ratio は最も低く、一方 Gemma-2 は d′ が低いがほぼ最適な M-ratio を示す。
- メタ認知効率はドメイン特異的であり、TriviaQA では異なるモデルが最も弱いドメインを持つ。
- 温度は信頼度方針(Type-2 基準)を転じるが、二つのモデルに対して meta-d′ を一貫して変えないことが多く、キャリブレーションとメタ認知容量のディスソシエーションを示唆。
- AUROC 2 と M-ratio のランキングは完全に反転しており、評価のアスペクトが異なるモデルを信頼度依存タスクで好む場合がある。
- 事前登録済みの分析とコード/データは公開されており、再現性を支援。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。