QUICK REVIEW

[論文レビュー] Calibration tests in multi-class classification: A unifying framework

David Widmann, Fredrik Lindsten|arXiv (Cornell University)|Oct 24, 2019

Advanced Statistical Methods and Models被引用数 27

ひとこと要約

本稿は、行列値カーネルに基づくキャリブレーション測度を用いて、多クラス分類におけるキャリブレーションテストの統一的枠組みを提案する。この枠組みでは、解釈可能なp値の境界と近似値を備えた一貫性があり不偏な推定器を導入し、キャリブレーションの帰無仮説下での近似を可能にする。主な貢献は、キャリブレーション誤差推定の解釈可能性の向上であり、実験的結果から、現代の深層ニューラルネットワークはp値近似がほぼゼロに近いため、一貫してキャリブレーションが不十分であることが示された。

ABSTRACT

In safety-critical applications a probabilistic model is usually required to be calibrated, i.e., to capture the uncertainty of its predictions accurately. In multi-class classification, calibration of the most confident predictions only is often not sufficient. We propose and study calibration measures for multi-class classification that generalize existing measures such as the expected calibration error, the maximum calibration error, and the maximum mean calibration error. We propose and evaluate empirically different consistent and unbiased estimators for a specific class of measures based on matrix-valued kernels. Importantly, these estimators can be interpreted as test statistics associated with well-defined bounds and approximations of the p-value under the null hypothesis that the model is calibrated, significantly improving the interpretability of calibration measures, which otherwise lack any meaningful unit or scale.

研究の動機と目的

二値分類や最も信頼度の高い予測に限らない、解釈可能で統計的に妥当な多クラス分類におけるキャリブレーション測度の不足を解消すること。
ECE、MCE、MMCEといった既存のキャリブレーション指標を、多クラス設定に適用可能な統一的枠組みに一般化すること。
行列値カーネルに基づくキャリブレーション測度のための一貫性があり不偏な推定器を開発すること。
理論的裏付けのあるp値の近似と境界を提供し、キャリブレーション誤差推定の解釈可能性を向上させること。
提案された枠組みを用いて、現代の深層ニューラルネットワークのキャリブレーションを実験的に評価し、広範なキャリブレーションの欠如を明らかにすること。

提案手法

行列値カーネルに基づく一般クラスのキャリブレーション測度を提案し、ECE や MMCE といった既存指標の統一的取り扱いを可能にする。
SKCE（球面カーネルキャリブレーション誤差）の推定器を導入し、緩い正則性条件のもとで一貫性と不偏性を示す。
一致性リサンプリングと漸近的分布近似を用いて、モデルのキャリブレーションの帰無仮説下でのp値を推定する。
漸近的近似が信頼できない場合に保守的な推論が得られるように、p値の分布フリーな境界を導出する。
生成モデルを用いた制御実験を通じて、推定器およびp値近似の統計的性質を検証する。
Juliaを用いた実装により、クラス数やサンプル数の変動に応じた計算効率とスケーラビリティを評価する。

実験結果

リサーチクエスチョン

RQ1二値分類やトップ予測設定における既存のキャリブレーション測度は、多クラス分類に向けた統一的枠組みに一般化可能か？
RQ2提案されたカーネルベースのキャリブレーション誤差推定器は、有限サンプル条件下でも一貫性と不偏性を持つか？
RQ3リサンプリングおよび漸近的理論から導かれるp値の近似と境界は、キャリブレーション誤差推定の解釈性を向上させられるか？
RQ4提案された枠組みを用いて評価した場合、現代の深層ニューラルネットワークのキャリブレーション性能はいかがな状態か？
RQ5提案された推定器は、高次元の確率単体を持つ大規模な多クラス問題に対しても計算的に実行可能か？

主な発見

SKCEの推定器は一貫性と不偏性を示し、生成モデルを用いた制御実験でも優れた実験的性能を示した。
推定器 $\widehat{\mathrm{SKCE}}_{\mathrm{uq}}$ の漸近的分布に基づくp値近似は、平均的に真のp値を正確に近似し、強力な統計的検定を可能にした。
CIFAR-10におけるすべての評価済み現代的ニューラルネットワークにおいて、$\widehat{\mathrm{SKCE}}_{\mathrm{uq}}$ を用いたp値近似はゼロであった。これは、キャリブレーションの帰無仮説が強く棄却される強力な証拠を示している。
$\widehat{\mathrm{SKCE}}_{\mathrm{ul}}$ を用いたp値近似は、ResNet18で0.18からGoogLeNetで0.91まで変動し、実証的キャリブレーション誤差の程度の違いを反映していた。
p値の分布フリーな境界は一般的に緩く、0.99から1の間で推定された。これは保守的ではあるが、実用的な推論には役立たないことを示している。
計算評価では、$\widehat{\mathrm{SKCE}}_{\mathrm{b}}$ や $\widehat{\mathrm{SKCE}}_{\mathrm{uq}}$ のような推定器が、1000クラスおよび1000サンプルでも0.1秒未塔で評価可能であることが示され、スケーラビリティが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。