QUICK REVIEW

[論文レビュー] Revisiting the Calibration of Modern Neural Networks

Matthias Minderer, Josip Djolonga|arXiv (Cornell University)|Jun 15, 2021

Adversarial Robustness in Machine Learning参考文献 51被引用数 69

ひとこと要約

本稿は最近の画像分類器の予測的不確実性キャリブレーションを再評価し、現代の非畳み込み型アーキテクチャ（例：ViT、MLP-Mixer）が良くキャリブレーションされており、キャリブレーションの傾向はモデルサイズや事前学習だけよりもアーキテクチャにより影響を受けることが多い、特に分布シフト下でそうである、と示している。

ABSTRACT

Accurate estimation of predictive uncertainty (model calibration) is essential for the safe application of neural networks. Many instances of miscalibration in modern neural networks have been reported, suggesting a trend that newer, more accurate models produce poorly calibrated predictions. Here, we revisit this question for recent state-of-the-art image classification models. We systematically relate model calibration and accuracy, and find that the most recent models, notably those not using convolutions, are among the best calibrated. Trends observed in prior model generations, such as decay of calibration with distribution shift or model size, are less pronounced in recent architectures. We also show that model size and amount of pretraining do not fully explain these differences, suggesting that architecture is a major determinant of calibration properties.

研究の動機と目的

最新の画像分類モデルが急速なアーキテクチャの進化を踏まえても依然として良くキャリブレーションされているかを動機づけ、再評価する。
さまざまなモデルファミリーと分布条件にわたり、キャリブレーションと精度を体系的に関連付ける。
サイズと事前学習データを超えるアーキテクチャ要因がキャリブレーション特性に影響を与える要因を特定する。
モデルとデータセット全体で広範なキャリブレーション評価を可能にする大規模データセットとコードを提供する。

提案手法

ImageNet規模のタスクで、畳み込み型と非畳み込み型アーキテクチャを含む幅広い現代の画像分類モデルファミリーを比較する。
100等質量ビンを用いたExpected Calibration Error (ECE) でキャリブレーションを評価し、信頼性図と代替指標（NLL、Brierスコア）を含める。
セルフポストホック温度スケーリングを適用して intrinsic calibration と信頼 bias を分離し、モデルファミリー間の影響を評価する。
精度を制御しつつ、キャリブレーションに対するモデルサイズと事前学習量/データセットの影響を分析する。
ImageNet-Cを用いた分布シフト下でのキャリブレーションを評価し、他のアウトオブディストリビューション指標とデータセット間の整合性を検討する。

実験結果

リサーチクエスチョン

RQ1現代の最先端画像分類器は依然として良いキャリブレーションを維持しているのか、それともこれまでのように精度が向上するとともにキャリブレーションが劣化しているのか。
RQ2温度スケーリング後にモデルファミリー（畳み込み型対非畳み込み型）間でキャリブレーションはどう変わるのか。
RQ3アーキテクチャ間のキャリブレーション差異を説明するのに、特に分布シフト下で、モデルサイズと事前学習データはどの程度影響するのか。

主な発見

過去のモデルと比較して、非畳み込み型のMLP-MixerやVision Transformersを含む最良の現状モデルは、分布シフトに対しても良くキャリブレーションされており堅牢である。
分布内でのキャリブレーションはモデルサイズの増加とともにわずかに劣化するが、精度の利得がそれを上回る。
分布シフト下では、キャリブレーションはモデルサイズとともに改善され、分布内の傾向を逆転させる。
精度とキャリブレーションは分布シフト下で相関しており、キャリブレーションの恩恩を受けた精度最適化が有用となり得る。
モデルサイズと事前学習量だけでは、モデルファミリー間のキャリブレーション差を十分に説明できない。アーキテクチャが主要な決定要因である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。