QUICK REVIEW

[論文レビュー] Mitigating Bias in Calibration Error Estimation

Rebecca Roelofs, Nicholas Cain|arXiv (Cornell University)|Dec 15, 2020

Adversarial Robustness in Machine Learning参考文献 37被引用数 23

ひとこと要約

本論文は、機械学習モデルのキャリブレーション誤差推定における統計的バイアスを定量化および低減するためのフレームワークを提案する。等質量ボーリングと、新たな単調性を保つ推定器 ECE_sweep が、標準的な等幅ボーリングよりも優れていることが判明し、再キャリブレーション手法の選定と不適合検出が顕著に向上する。

ABSTRACT

For an AI system to be reliable, the confidence it expresses in its decisions must match its accuracy. To assess the degree of match, examples are typically binned by confidence and the per-bin mean confidence and accuracy are compared. Most research in calibration focuses on techniques to reduce this empirical measure of calibration error, ECE_bin. We instead focus on assessing statistical bias in this empirical measure, and we identify better estimators. We propose a framework through which we can compute the bias of a particular estimator for an evaluation data set of a given size. The framework involves synthesizing model outputs that have the same statistics as common neural architectures on popular data sets. We find that binning-based estimators with bins of equal mass (number of instances) have lower bias than estimators with bins of equal width. Our results indicate two reliable calibration-error estimators: the debiased estimator (Brocker, 2012; Ferro and Fricker, 2012) and a method we propose, ECE_sweep, which uses equal-mass bins and chooses the number of bins to be as large as possible while preserving monotonicity in the calibration function. With these estimators, we observe improvements in the effectiveness of recalibration methods and in the detection of model miscalibration.

研究の動機と目的

モデルキャリブレーションに広く用いられる ECE_bin 推定器における統計的バイアスを特定および定量化すること。
キャリブレーション誤差推定におけるバイアスが、再キャリブレーション手法の選定と有効性に与える影響を評価すること。
現実的なモデルの信頼度スコア分布を想定したシミュレーションベースのフレームワークを構築し、バイアスを推定すること。
複数のキャリブレーション誤差推定器を比較し、実用的導入に最も適したバイアスが最小の推定器を同定すること。
医療や自律走行システムなどのハイリスク応用分野におけるモデルキャリブレーション評価の信頼性を向上させること。

提案手法

CIFAR-10、CIFAR-100、ImageNetで実際のニューラルネットワークと一致する統計を持つモデルの信頼度スコアを合成する、バイアス構築型（BBC）フレームワークを開発する。
最尤推定を用いて、シミュレーテッドデータ内での真のキャリブレーション誤差（TCE）を解析的に推定し、直接的なバイアス計算を可能にする。
7つの推定器を比較：ECE_bin（等幅ボックス）、ECE_sweep（等質量ボックスに単調性制約を課したもの）、ECE_debias（バイアス補正推定器）、KDE（カーネル密度推定器）。
特に少数サンプルの状況でスパarsityを回避するため、等質量ボーリングを用いてバイアスを低減する。
単調性を保ちながら最大のボックス数を選択する新しい推定器 ECE_sweep を導入する。
複数のモデルアーキテクチャとデータセットを用いて推定器を評価し、バイアス、分散、および再キャリブレーション意思決定への影響を分析する。

実験結果

リサーチクエスチョン

RQ1ECE_bin における統計的バイアスは、異なるモデルアーキテクチャやデータセット分布によってどのように変動するか？
RQ2完全にキャリブレートされたモデルのキャリブレーション誤差を推定する際、ECE_bin のバイアスの大きさと方向性は何か？
RQ3等幅と等質量の両方のボーリング戦略が、推定器バイアスにどのように影響するか？
RQ4ECE_sweep という新しい推定器は、キャリブレーション関数の単調性を保ちながらバイアスを低減できるか？
RQ5推定器バイアスは、実際の状況で最適な再キャリブレーション手法の選定にどのように影響するか？

主な発見

等幅ボックスを用いた ECE_bin は、完全にキャリブレートされたモデルに対しても、大きな系統的バイアスを示し、しばしばキャリブレーション誤差を過大評価する。
等質量ボーリングは、特に少数サンプルの状況で、等幅ボーリングに比べてバイアスを顕著に低減する。
等質量ボックスを用い、単調性を保ちながら最大のボックス数を選択する ECE_sweep は、ECE_bin よりもバイアスが低く、現実的状況では ECE_debias よりも優れた性能を示す。
バイアス補正推定器（ECE_debias）は ECE_bin よりもバイアスが小さいが、スコア分布の歪みに敏感であるため、実用的状況では ECE_sweep に劣る。
ECE_bin ではなく ECE_sweep を使用することで、10回中7回のケースで再キャリブレーション手法の選定が向上する（表1参照）。一方、ECE_bin を使用した場合は3回にとどまる。
ECE_sweep は、特に少数サンプルまたはスコア分布が歪んでいる状況で、ECE_bin よりも不適合状態の検出に敏感である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。