Skip to main content
QUICK REVIEW

[論文レビュー] Mix-n-Match: Ensemble and Compositional Methods for Uncertainty Calibration in Deep Learning

Jize Zhang, Bhavya Kailkhura|arXiv (Cornell University)|Mar 16, 2020
Anomaly Detection Techniques and Applications被引用数 47
ひとこと要約

この論文は混成と組み合わせのキャリブレーション戦略 Mix-n-Match を導入し、データ効率が高く、表現力豊かな事後キャリブレーションを深層分類器に対して実現する。データ効率の高い KDE ベースの評価方法とともに。

ABSTRACT

This paper studies the problem of post-hoc calibration of machine learning classifiers. We introduce the following desiderata for uncertainty calibration: (a) accuracy-preserving, (b) data-efficient, and (c) high expressive power. We show that none of the existing methods satisfy all three requirements, and demonstrate how Mix-n-Match calibration strategies (i.e., ensemble and composition) can help achieve remarkably better data-efficiency and expressive power while provably maintaining the classification accuracy of the original classifier. Mix-n-Match strategies are generic in the sense that they can be used to improve the performance of any off-the-shelf calibrator. We also reveal potential issues in standard evaluation practices. Popular approaches (e.g., histogram-based expected calibration error (ECE)) may provide misleading results especially in small-data regime. Therefore, we propose an alternative data-efficient kernel density-based estimator for a reliable evaluation of the calibration performance and prove its asymptotically unbiasedness and consistency. Our approaches outperform state-of-the-art solutions on both the calibration as well as the evaluation tasks in most of the experimental settings. Our codes are available at https://github.com/zhang64-llnl/Mix-n-Match-Calibration.

研究の動機と目的

  • 不確実性キャリブレーションの望ましい特性を定義する(精度を保つ、データ効率、表現力)。
  • キャリブレーション性能を向上させつつ精度を保つ Mix-n-Match 戦略(アンサンブルと組成)を提案する。
  • 信頼性の高いキャリブレーション評価のためのデータ効率的なカーネル密度推定器(KDE)を開発する。
  • Mix-n-Match がデータセットとモデル全体で最先端のキャリブレーション手法を上回ることを実証的に示す。

提案手法

  • 予測値に適用された厳密な単調関数に基づく精度保持キャリブレーションマップを導入する。
  • 精度とデータ効率を保ちながら表現力を高めるため、パラメトリックなアンサンブルキャリブレーション(Ensemble Temperature Scaling, ETS)を提案する。
  • データアンサンブルを用いたノンパラメトリックな多クラス単調回帰(IRM)を開発し、データ効率を改善し精度を維持する。
  • パラメトリックとノンパラメトリックのキャリブレータを組成的に組み合わせ(IROvA-TS)両者の長所を活かす。
  • 漸近的に偏りのない一貫性のある信頼性の高い KDE ベースの ECE 推定量を提供する。
  • 次元に依存しないキャリブレーション利得指標を提供し、方法の比較を堅牢に行う。)

実験結果

リサーチクエスチョン

  • RQ1キャリブレーション手法は、精度を損なうことなくキャリブレーション品質とデータ効率を向上させられるか?
  • RQ2表現力を高めつつ精度を犠牲にしないよう、アンサンブルと組成戦略をどのように設計すべきか?
  • RQ3データ効率的な KDE ベースの推定量は、小規模データ領域で特に信頼できるか?
  • RQ4ハイブリッドなパラメトリック-ノンパラメトリックアプローチは、一般的なベンチマークで既存手法を上回るか?

主な発見

  • Mix-n-Match 戦略は、複数のデータセットとモデルアーキテクチャで、データ効率と表現力を向上させつつ、精度を保証的に保持する。
  • Ensemble Temperature Scaling (ETS) は、標準の Temperature Scaling (TS) より表現力を高め、追加の2パラメータだけで、精度保持特性を維持する。
  • データアンサンブルを用いた多クラス単調回帰(IRM)は、one-vs-all 単調アプローチと比較してデータ効率を改善し、精度を保持する。
  • 組成的手法(IROvA-TS)は、ノンパラメトリックなキャリブレーションと TS ベースラインを組み合わせて、精度保持と改善されたキャリブレーションの両方を達成する。
  • KDE ベースの ECE 推定量は、ヒストグラムベースの推定量より優れており、特に小サンプル領域で有効で、漸近的に無偏かつ一貫性があることが証明されている。
  • CIFAR-10/100 および ImageNet の実験では、Mix-n-Match 手法がベースラインと比較してより良いキャリブレーション利得と、同等または優れた精度を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。