[論文レビュー] Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift
本論文はデータセットシフト下で多数の不確実性定量法をベンチマークし、独立同分布(i.i.d.)データでの校正がシフト下でしばしば失敗すること、そして深いアンサンブルが一般に最も頑健な不確実性推定を提供することを示している。
Modern machine learning methods including deep learning have achieved great success in predictive accuracy for supervised learning tasks, but may still fall short in giving useful estimates of their predictive {\em uncertainty}. Quantifying uncertainty is especially critical in real-world settings, which often involve input distributions that are shifted from the training distribution due to a variety of factors including sample bias and non-stationarity. In such settings, well calibrated uncertainty estimates convey information about when a model's output should (or should not) be trusted. Many probabilistic deep learning methods, including Bayesian-and non-Bayesian methods, have been proposed in the literature for quantifying predictive uncertainty, but to our knowledge there has not previously been a rigorous large-scale empirical comparison of these methods under dataset shift. We present a large-scale benchmark of existing state-of-the-art methods on classification problems and investigate the effect of dataset shift on accuracy and calibration. We find that traditional post-hoc calibration does indeed fall short, as do several other previous methods. However, some methods that marginalize over models give surprisingly strong results across a broad spectrum of tasks.
研究の動機と目的
- 独立同分布を超えた分布シフト下での予測不確実性の堅牢な評価を動機づける。
- 多様なモダリティ(画像、テキスト、カテゴリカルデータ)に対して、スケーラブルな不確実性推定手法のベンチマークを行う。
- シフト下での校正と精度の共変動を評価し、シフトが拡大しても信頼できる手法を特定する。
提案手法
- p(y|x) をモデル化する手法と、結合分布をモデル化する手法またはOOD成分を含む手法を比較し、大規模データセットへのスケーラビリティに焦点を当てる。
- Vanilla、温度スケーリング、ドロップアウト、アンサンブル、確率的変分推論(SVI)、最後の層バリアント(LL-SVI、LL-Dropout)および関連アプローチを評価する。
- MNIST、CIFAR-10、ImageNet、20 Newsgroups のテキスト、および Criteo の広告クリックデータなど、さまざまなデータセットを用いる。
- 正確度、負の対数尤度、ブライアースコア、期待校正誤差(ECE)、予測エントロピーなどの指標で性能を評価する。
- シフトデータと完全なOODデータの両方を検討し、校正と不確実性の挙動を観察する。
実験結果
リサーチクエスチョン
- RQ1データセットシフト下で異なる手法の不確実性推定はどれくらい信頼できるか?
- RQ2i.i.d. 設定での校正はデータセットシフト下での校正へ翻訳されるか?
- RQ3データセットシフト下で、手法やモダリティごとに不確実性と精度はどう共変動するか?
- RQ4タスクを横断してシフト下で一貫して高性能を発揮する手法はあるか?
- RQ5シフト下で不確実性を考慮したモデルを展開するための実践的な推奨事項は何か?
主な発見
- ほとんどの手法で、不確実性の質はデータセットシフトが大きくなるにつれて低下し、手法に依存しない。
- i.i.d.データでの校正は、シフト下やOOD設定での校正を保証しない。
- 温度スケーリングなどの事後校正は小さなシフトでは有効だが、シフトが大きくなるとエピステミック不確実性をモデル化する手法に劣る。
- 深いアンサンブルは、指標とモダリティを問わず一貫して最良の性能を発揮し、特に大きなシフト時に優れる。
- 最後の層のドロップアウト変種とSVIは結果がまちまちで、より大規模なデータセットでは劣る場合があるが、SVIは比較的単純なデータセットでは強力になり得る。
- アンサンブル法は、比較的少数のアンサンブルサイズ(例:5モデル)で強力な性能を発揮できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。