[論文レビュー] Measuring Calibration in Deep Learning
本論文は多クラス分類器のキャリブレーション指標を批判的に分析し、ECEのような一般的な指標が誤解を招く可能性があることを示し、ACE、SCE、GCEといった代替指標を提案し、ベストプラクティスの推奨を提供する。
Overconfidence and underconfidence in machine learning classifiers is measured by calibration: the degree to which the probabilities predicted for each class match the accuracy of the classifier on that prediction. How one measures calibration remains a challenge: expected calibration error, the most popular metric, has numerous flaws which we outline, and there is no clear empirical understanding of how its choices affect conclusions in practice, and what recommendations there are to counteract its flaws. In this paper, we perform a comprehensive empirical study of choices in calibration measures including measuring all probabilities rather than just the maximum prediction, thresholding probability values, class conditionality, number of bins, bins that are adaptive to the datapoint density, and the norm used to compare accuracies to confidences. To analyze the sensitivity of calibration measures, we study the impact of optimizing directly for each variant with recalibration techniques. Across MNIST, Fashion MNIST, CIFAR-10/100, and ImageNet, we find that conclusions on the rank ordering of recalibration methods is drastically impacted by the choice of calibration measure. We find that conditioning on the class leads to more effective calibration evaluations, and that using the L2 norm rather than the L1 norm improves both optimization for calibration metrics and the rank correlation measuring metric consistency. Adaptive binning schemes lead to more stablity of metric rank ordering when the number of bins vary, and is also recommended. We open source a library for the use of our calibration measures.
研究の動機と目的
- 期待されるキャリブレーション誤差(ECE)の多クラス設定における限界と病的な側面を評価する。
- クラス条件付け、適応性、およびノルム選択に対処する代替キャリブレーション指標を提案・分析する。
- ビニング、しきい値設定、再キャリブレーションがデータセット全体のキャリブレーション評価に与える影響を調査する。
- 堅牢なキャリブレーション評価のための実践的な推奨とオープンソースツールを提供する。
提案手法
- 5つの特性(クラス条件付け、適応性、最大確率への焦点、ノルム、しきい値設定)にわたるキャリブレーション誤差の定義の形式的分析。
- 一般的なキャリブレーション誤差(GCE)を設定可能な指標空間として定義・評価。
- キャリブレーション範囲全体で等頻度ビニングを用いた適応的キャリブレーション誤差(ACE)の導入。
- 各クラスの確率ごとにビン分割する多クラス拡張としての静的キャリブレーション誤差(SCE)の定義。
- 多くのほぼゼロ確率を扱うためのしきい値設定と、それがキャリブレーション推定に与える影響についての考察。
- MNIST、Fashion-MNIST、CIFAR-10/100、ImageNetを用いた実証評価で指標の挙動と再キャリブレーションの影響を研究。
実験結果
リサーチクエスチョン
- RQ1多クラス設定におけるキャリブレーション指標の選択は、モデルのキャリブレーションに関する結論にどのような影響を与えるか。
- RQ2クラス条件付けされたキャリブレーション指標は、集約的で条件付けられない指標よりも信頼できる評価を提供するか。
- RQ3適応ビニング、ノルム選択(L1対L2)、しきい値設定がキャリブレーション評価と手法のランキングに与える影響は何か。
- RQ4再キャリブレーション手法は、データセット間で異なるキャリブレーション指標とどのように相互作用するか。
- RQ5キャリブレーション評価の堅牢性と比較可能性を改善するための実践的な推奨は何か。
主な発見
- ECEには複数の欠陥があり(最大確率以外の確率を無視、固定ビン、クラス条件付けの欠如)、キャリブレーション評価を歪める。
- クラス条件付けキャリブレーション指標はクラス間での不均一なキャリブレーションを明らかにし、より有益な評価を提供する。
- 適応ビニング(ACE)はビン数が変化しても指標の順位を安定させ、実務上は静的ビニングより優れている。
- L2ノルムの使用は、キャリブレーション指標の最適化と順位相関の一貫性を一般的に向上させる。
- 再キャリブレーション手法のランキングは指標によって大きく異なり、指標依存の結論を示唆する。
- 適応型キャリブレーション手法は、データセットとアーキテクチャをまたいでより堅牢で信頼できる比較を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。