QUICK REVIEW

[論文レビュー] Mix-n-Match: Ensemble and Compositional Methods for Uncertainty Calibration in Deep Learning

Jize Zhang, Bhavya Kailkhura|arXiv (Cornell University)|Mar 16, 2020

Anomaly Detection Techniques and Applications被引用数 47

ひとこと要約

この論文は混成と組み合わせのキャリブレーション戦略 Mix-n-Match を導入し、データ効率が高く、表現力豊かな事後キャリブレーションを深層分類器に対して実現する。データ効率の高い KDE ベースの評価方法とともに。

ABSTRACT

This paper studies the problem of post-hoc calibration of machine learning classifiers. We introduce the following desiderata for uncertainty calibration: (a) accuracy-preserving, (b) data-efficient, and (c) high expressive power. We show that none of the existing methods satisfy all three requirements, and demonstrate how Mix-n-Match calibration strategies (i.e., ensemble and composition) can help achieve remarkably better data-efficiency and expressive power while provably maintaining the classification accuracy of the original classifier. Mix-n-Match strategies are generic in the sense that they can be used to improve the performance of any off-the-shelf calibrator. We also reveal potential issues in standard evaluation practices. Popular approaches (e.g., histogram-based expected calibration error (ECE)) may provide misleading results especially in small-data regime. Therefore, we propose an alternative data-efficient kernel density-based estimator for a reliable evaluation of the calibration performance and prove its asymptotically unbiasedness and consistency. Our approaches outperform state-of-the-art solutions on both the calibration as well as the evaluation tasks in most of the experimental settings. Our codes are available at https://github.com/zhang64-llnl/Mix-n-Match-Calibration.

研究の動機と目的

不確実性キャリブレーションの望ましい特性を定義する（精度を保つ、データ効率、表現力）。
キャリブレーション性能を向上させつつ精度を保つ Mix-n-Match 戦略（アンサンブルと組成）を提案する。
信頼性の高いキャリブレーション評価のためのデータ効率的なカーネル密度推定器(KDE)を開発する。
Mix-n-Match がデータセットとモデル全体で最先端のキャリブレーション手法を上回ることを実証的に示す。

提案手法

予測値に適用された厳密な単調関数に基づく精度保持キャリブレーションマップを導入する。
精度とデータ効率を保ちながら表現力を高めるため、パラメトリックなアンサンブルキャリブレーション（Ensemble Temperature Scaling, ETS）を提案する。
データアンサンブルを用いたノンパラメトリックな多クラス単調回帰（IRM）を開発し、データ効率を改善し精度を維持する。
パラメトリックとノンパラメトリックのキャリブレータを組成的に組み合わせ（IROvA-TS）両者の長所を活かす。
漸近的に偏りのない一貫性のある信頼性の高い KDE ベースの ECE 推定量を提供する。
次元に依存しないキャリブレーション利得指標を提供し、方法の比較を堅牢に行う。）

実験結果

リサーチクエスチョン

RQ1キャリブレーション手法は、精度を損なうことなくキャリブレーション品質とデータ効率を向上させられるか？
RQ2表現力を高めつつ精度を犠牲にしないよう、アンサンブルと組成戦略をどのように設計すべきか？
RQ3データ効率的な KDE ベースの推定量は、小規模データ領域で特に信頼できるか？
RQ4ハイブリッドなパラメトリック-ノンパラメトリックアプローチは、一般的なベンチマークで既存手法を上回るか？

主な発見

Mix-n-Match 戦略は、複数のデータセットとモデルアーキテクチャで、データ効率と表現力を向上させつつ、精度を保証的に保持する。
Ensemble Temperature Scaling (ETS) は、標準の Temperature Scaling (TS) より表現力を高め、追加の2パラメータだけで、精度保持特性を維持する。
データアンサンブルを用いた多クラス単調回帰（IRM）は、one-vs-all 単調アプローチと比較してデータ効率を改善し、精度を保持する。
組成的手法（IROvA-TS）は、ノンパラメトリックなキャリブレーションと TS ベースラインを組み合わせて、精度保持と改善されたキャリブレーションの両方を達成する。
KDE ベースの ECE 推定量は、ヒストグラムベースの推定量より優れており、特に小サンプル領域で有効で、漸近的に無偏かつ一貫性があることが証明されている。
CIFAR-10/100 および ImageNet の実験では、Mix-n-Match 手法がベースラインと比較してより良いキャリブレーション利得と、同等または優れた精度を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。