QUICK REVIEW

[論文レビュー] Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

Pedro Memoli Buffa, Luciano Del Corro|arXiv (Cornell University)|Jan 13, 2026

Topic Modeling被引用数 0

ひとこと要約

論文は Entropy Sentinel を提案します。解読時のエントロピー痕跡を top-k の logprobs から利用し、インスタンスごとの正確さを予測し、分布シフト下でドメインレベルの精度を推定する軽量手法。これにより STEM 推論タスクの継続的な監視とデータ取得のターゲット化を実現します。

ABSTRACT

Deploying LLMs raises two coupled challenges: (1) monitoring--estimating where a model underperforms as traffic and domains drift--and (2) improvement--prioritizing data acquisition to close the largest performance gaps. We test whether an inference-time signal can estimate slice-level accuracy under domain shift. For each response, we compute an output-entropy profile from final-layer next-token probabilities (from top-$k$ logprobs) and summarize it with different statistics. A lightweight classifier predicts instance correctness, and averaging predicted probabilities yields a domain-level accuracy estimate. We evaluate on ten STEM reasoning benchmarks with exhaustive train/test compositions ($k\in\{1,2,3,4\}$; all $\binom{10}{k}$ combinations), on different classifier models and features across nine LLMs from six families (3B--20B). Estimates often track held-out benchmark accuracy, and several models show near-monotonic ordering of domains, providing evidence for output-entropy profiles being an accessible signal for scalable monitoring and for targeted data acquisition.

研究の動機と目的

ドメインドリフト下で LLM がどこで性能を落としているかの scalable 監視を動機づける。
最終層エントロピー・プロファイルが、軽量モデルを用いてインスタンス正確性を予測できることを示す。
スライスごとの予測を集計してドメインレベルの精度推定を可能にする。
複数の LLM ファミリと STEM ベンチマークに跨るエントロピーベース監視の頑健性を示す。

提案手法

生成中の top-k 次トークン確率から出力エントロピー軌跡を計算する（k=20）。
軌跡を 11 次元の特徴ベクトルに要約し、中心傾向・分散・裾・形状を捉える（最大、平均、標準偏差、Q10/25/50/75/90、歪度、尖度、SEA）。
エントロピーフィーチャを P(x)（インスタンス正確性確率）へ写像する軽量確率的分類器を訓練する。
スライス D のインスタンス全体で予測正確性確率を平均してドメインレベルの精度を推定する（Â(D) = 平均 P(x)）。
10 の STEM ベンチマークと 9 種の LLM（3B–20B）にわたる網羅的な train/test 分割と複数の推定器変種を用いて、分布シフト下での頑健性を評価する。
エントロピーベースの推定器を標準的不確実性ベースラインと比較し、監視の組成（k ベンチマーク）による一般化への影響を分析する。

Figure 1: Entropy-based accuracy estimation for PHI-3.5-MINI-3.6B. Trained on two benchmarks (orange), the estimator generalizes to eight unseen STEM benchmarks (blue)

実験結果

リサーチクエスチョン

RQ1推論時のエントロピー信号は分布シフト下でインスタンスごとの正確性を予測できるか？
RQ2較正されたエントロピープロファイルベースの予測器は、インスタンス予測を集約してドメインレベルの精度をどれだけ正確に推定できるか？
RQ3監視の組成（訓練に用いるベンチマーク）は、アウトオブドメインの精度推定にどのような影響を与えるか？
RQ4異なる推定器設計（分類器の種類、較正、バランス調整）は性能と頑健性にどのような影響を与えるか？

主な発見

エントロピー・プロファイルに基づく信号は、モデルとベンチマークを跨いでも正解と不正解の非自明な識別をもたらす（AUROC は一般に 0.5 を上回る）。
エントロピー・プロファイルの compact な 11D 特徴ベクトルを軽量分類器に入力すると、インスタンス正確性を較正された確率で予測でき、インスタンス予測の平均化によるドメインレベルの精度推定（Â(D)）が可能になる。
ドメイン間の精度推定は一部モデルで強力（例えばランキングがほぼ完璧、特定構成で低い AEE など）だが、モデル依存であり、ターゲットモデルでの検証が必要。
難易度の異なるタスクを含む監督（易〜難ベンチマークを混合）は、難易度が均質なセットに限定した監督より一般化を改善する。
監視デ Benchmarks の数を増やす（k の増加）は、推定誤差を一貫して低減し、順位の一貂性を改善するが、モデルによって利益は異なる。

Figure 2: Max-entropy density for phi-3.5-mini on MATH (correct vs. incorrect). Incorrect responses shift to higher entropy, indicating greater uncertainty.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。