[論文レビュー] Verified Uncertainty Calibration
スケーリング-ビニング・キャリブレーターを導入し、サンプル複雑性に有利な較正可能な確率を達成する。スケーリング法は較正誤差を過小評価することを示し、較正誤差のデバイアスのない推定量を提供してサンプル効率を改善する。CIFAR-10とImageNetで検証。
Applications such as weather forecasting and personalized medicine demand models that output calibrated probability estimates---those representative of the true likelihood of a prediction. Most models are not calibrated out of the box but are recalibrated by post-processing model outputs. We find in this work that popular recalibration methods like Platt scaling and temperature scaling are (i) less calibrated than reported, and (ii) current techniques cannot estimate how miscalibrated they are. An alternative method, histogram binning, has measurable calibration error but is sample inefficient---it requires $O(B/ε^2)$ samples, compared to $O(1/ε^2)$ for scaling methods, where $B$ is the number of distinct probabilities the model can output. To get the best of both worlds, we introduce the scaling-binning calibrator, which first fits a parametric function to reduce variance and then bins the function values to actually ensure calibration. This requires only $O(1/ε^2 + B)$ samples. Next, we show that we can estimate a model's calibration error more accurately using an estimator from the meteorological community---or equivalently measure its calibration error with fewer samples ($O(\sqrt{B})$ instead of $O(B)$). We validate our approach with multiclass calibration experiments on CIFAR-10 and ImageNet, where we obtain a 35% lower calibration error than histogram binning and, unlike scaling methods, guarantees on true calibration. In these experiments, we also estimate the calibration error and ECE more accurately than the commonly used plugin estimators. We implement all these methods in a Python library: https://pypi.org/project/uncertainty-calibration
研究の動機と目的
- Critical applications(医療、気象、NLP)における確率較正の必要性を動機付ける。
- 一般的な再較正法(Plattスケーリング、温度スケーリング)の真の較正と誤差推定における限界を示す。
- スケーリングとビニングを組み合わせて、サンプル複雑性に有利な較正と測定可能な較正誤差を実現する方法を提案する。
- 偏りの少ない推定量を含む、較正誤差の効率的な推定器を開発する。
- CIFAR-10、ImageNetなどの多クラスデータセットで較正性能と推定精度を経験的に検証する。
提案手法
- 最初に G の族に属する関数 g を適合させ、再較正データを取得する scaling-binning calibrator を提案する。
- g(z) の出力に対して一様質量のビニングを構築し、変換されたスコアをビン分けする。
- ビンごとに平均値の g(z) を出力することで離散化し、g_B を得て f を g_B∘f によって較正する。
- 理論的な較正界を示す:CE(g_B) ≤ √(2)·min_g∈G CE(g) + ε ただし n ≥ c(B log B + log B / ε^2) サンプル。
- ビンニングによって g の出力を得ると、特定の条件下で g のみよりも較正誤差が低くなることを示す。
- 較正保証とヒストグラムビニングに対するサンプル複雑性の改善を示すアルゴリズムと証明(概略)を提供する。
実験結果
リサーチクエスチョン
- RQ1スケーリング法(Platt、温度)を用いた場合、真の較正誤差を測定するのが難しいときに確率を信頼性を持って較正できるか。
- RQ2サンプル効率と検証可能な較正保証の両方を達成する再較正法を設計できるか。
- RQ3スケーリングとヒストグラム系ビニングを組み合わせた scaling-binning は既存法よりも較正誤差と測定性を改善できるか。
- RQ4多クラス設定での較正誤差をより効率的に推定するにはどうすればよいか。
- RQ5ビニング戦略が較正誤差の測定と MSE に及ぼす影響はどのようか。
主な発見
- Scaling-binning キャリブレータは CIFAR-10 と ImageNet において B=100 のときヒストグラムビニングよりも較正誤差が小さい。
- この手法は ε の較正誤差を達成するのに O(1/ε^2 + B) サンプルを必要とし、ヒストグラムビニングの O(B/ε^2) を上回る。
- ビン分割推定量により、保証内で測定される ˆE^2 による効率的な較正誤差推定が可能になる(ε-近似)。
- デバイアスのある推定量は較正誤差推定のサンプル複雑性を O(B) から O(√B) に低減する。
- 実験では CIFAR-10 で 35%、ImageNet で 5 倍低い較正誤差を示し、B=100 の場合はスケーリング法は真の較正保証を提供しない。
- 本研究は提供URLのオープンソースのPythonライブラリを uncertainty calibration のために提供している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。