[論文レビュー] Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles
この論文は、深層アンサンブルを用いた単純でスケーラブルな非ベイズ的手法を提案し、適切なスコアリング規則で訓練して予測的不確実性を推定する。ImageNet を含むタスク全体で、較正された不確実性とドメインシフトへの頑健性を示す。
Deep neural networks (NNs) are powerful black box predictors that have\nrecently achieved impressive performance on a wide spectrum of tasks.\nQuantifying predictive uncertainty in NNs is a challenging and yet unsolved\nproblem. Bayesian NNs, which learn a distribution over weights, are currently\nthe state-of-the-art for estimating predictive uncertainty; however these\nrequire significant modifications to the training procedure and are\ncomputationally expensive compared to standard (non-Bayesian) NNs. We propose\nan alternative to Bayesian NNs that is simple to implement, readily\nparallelizable, requires very little hyperparameter tuning, and yields high\nquality predictive uncertainty estimates. Through a series of experiments on\nclassification and regression benchmarks, we demonstrate that our method\nproduces well-calibrated uncertainty estimates which are as good or better than\napproximate Bayesian NNs. To assess robustness to dataset shift, we evaluate\nthe predictive uncertainty on test examples from known and unknown\ndistributions, and show that our method is able to express higher uncertainty\non out-of-distribution examples. We demonstrate the scalability of our method\nby evaluating predictive uncertainty estimates on ImageNet.\n
研究の動機と目的
- 標準的な精度を超えた深層ニューラルネットワークにおける信頼できる予測不確実性の必要性を動機付ける。
- 確率的ニューラルネットワーク、適切なスコアリング規則、対抗的訓練、エンサンブルを組み合わせた単純でスケーラブルな手法を提案する。
- ImageNetを含む分類・回帰のベンチマークでの較正とアウト・オブ・ディストリビューション頑健性を評価する。
- 近似ベイズ法に対抗する予測不確実性の分散訓練向けベースラインを提供する。
提案手法
- 適切なスコアリング規則(例:対数尤度、ブライアースコア)を用いて p_theta(y|x) をモデリングする確率的NNを訓練する。
- 回帰には、ネットワークが平均と分散を出力し、正の分散をソフトプラス変換で負対数尤度を最小化する。
- 必要に応じて、敵対的例で拡張して予測分布を平滑化する対向訓練を適用。
- M個のネットワークのエンサンブルを訓練(バッグングなし、各ネットワークに全データを使用)し、予測を平均して混合モデルを形成。
- 混合平均と分散を一致させてエンセmble予測分布をガウス近似し、予測確率と区間の計算を効率化する。
実験結果
リサーチクエスチョン
- RQ1ディープエンサンブルは近似ベイズ法と同等かそれ以上の良く較正された予測不確実性を提供できるか?
- RQ2対向訓練は予測不確実性の滑らかさと信頼性を向上させるか?
- RQ3エンサンブルのサイズは較正、不確実性、アウト・オブ・ディストリビューションデータへの頑健性にどのように影響するか?
- RQ4これらの非ベイジアンエンサンブルは大規模データセット(例:ImageNet)に対して不確実性の質を維持しつつスケールするか?
- RQ5分類タスクで、既知と未知のクラス分布(アウト・オブ・ディストリビューション)に対して手法はどのように性能を示すか?
主な発見
| データセット | RMSE_PBP | RMSE_MC-dropout | RMSE_DeepEnsembles | NLL_PBP | NLL_MC-dropout | NLL_DeepEnsembles |
|---|---|---|---|---|---|---|
| Boston housing | 3.01 ± 0.18 | 2.97 ± 0.85 | 3.28 ± 1.00 | 2.57 ± 0.09 | 2.46 ± 0.25 | 2.41 ± 0.25 |
| Concrete | 5.67 ± 0.09 | 5.23 ± 0.53 | 6.03 ± 0.58 | 3.16 ± 0.02 | 3.04 ± 0.09 | 3.06 ± 0.18 |
| Energy | 1.80 ± 0.05 | 1.66 ± 0.19 | 2.09 ± 0.29 | 2.04 ± 0.02 | 1.99 ± 0.09 | 1.38 ± 0.22 |
| Kin8nm | 0.10 ± 0.00 | 0.10 ± 0.00 | 0.09 ± 0.00 | -0.90 ± 0.01 | -0.95 ± 0.03 | -1.20 ± 0.02 |
| Naval propulsion plant | 0.01 ± 0.00 | 0.01 ± 0.00 | 0.00 ± 0.00 | -3.73 ± 0.01 | -3.80 ± 0.05 | -5.63 ± 0.05 |
| Power plant | 4.12 ± 0.03 | 4.02 ± 0.18 | 4.11 ± 0.17 | 2.84 ± 0.01 | 2.80 ± 0.05 | 2.79 ± 0.04 |
| Protein | 4.73 ± 0.01 | 4.36 ± 0.04 | 4.71 ± 0.06 | 2.97 ± 0.00 | 2.89 ± 0.01 | 2.83 ± 0.02 |
| Wine | 0.64 ± 0.01 | 0.62 ± 0.04 | 0.64 ± 0.04 | 0.97 ± 0.01 | 0.93 ± 0.06 | 0.94 ± 0.12 |
| Yacht | 1.02 ± 0.05 | 1.11 ± 0.38 | 1.58 ± 0.48 | 1.63 ± 0.02 | 1.55 ± 0.12 | 1.18 ± 0.21 |
| Year Prediction MSD | 8.88 NA | 8.85 NA | 8.89 NA | 3.60 NA | 3.59 NA | 3.35 NA |
- 適切なスコアリング規則の訓練を用いたディープエンサンブルは、回帰と分類タスクでしばしばMCドロップアウトおよびPBPと同等かそれ以上に良く較正された予測不確実性をもたらす。
- 対向訓練は予測分布をさらに滑らかにし、いくつかのデータセットで不確実性推定を改善するが、その効果はタスクとエンサンブルサイズによって異なる。
- エンサンブルのサイズMを増やすと、精度と予測不確実性の質の両方が著しく向上する(NLLとBrierスコアの低下、較正の改善)。
- ImageNetでは、単一モデルと比較して分類精度と予測不確実性の両方がエンサンブルで改善される(NLLとBrierスコアの低下)。
- 手法はアウトオブディストリビューション入力(例:MNIST対NotMNIST、SVHN対CIFAR-10)に対してより高い予測不確実性を示し、未知クラスでの過信を解消する。
- 固定信頼度閾値での精度を評価すると、深層エンサンブルはMCドロップアウトより頑健で、過信した不正解を減らす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。