[論文レビュー] Ensemble Distribution Distillation
アンサンブル分布蒸留(EnD2)は、アンサンブル予測の分布を単一のPrior Network(Dirichletとしてモデル化)に蒸留し、多様性を保持して不確実性推定とOOD検出を改善し、CIFAR/TinyImageNetでアンサンブル性能に近づける。
Ensembles of models often yield improvements in system performance. These ensemble approaches have also been empirically shown to yield robust measures of uncertainty, and are capable of distinguishing between different \emph{forms} of uncertainty. However, ensembles come at a computational and memory cost which may be prohibitive for many applications. There has been significant work done on the distillation of an ensemble into a single model. Such approaches decrease computational cost and allow a single model to achieve an accuracy comparable to that of an ensemble. However, information about the \emph{diversity} of the ensemble, which can yield estimates of different forms of uncertainty, is lost. This work considers the novel task of \emph{Ensemble Distribution Distillation} (EnD$^2$) --- distilling the distribution of the predictions from an ensemble, rather than just the average prediction, into a single model. EnD$^2$ enables a single model to retain both the improved classification performance of ensemble distillation as well as information about the diversity of the ensemble, which is useful for uncertainty estimation. A solution for EnD$^2$ based on Prior Networks, a class of models which allow a single neural network to explicitly model a distribution over output distributions, is proposed in this work. The properties of EnD$^2$ are investigated on both an artificial dataset, and on the CIFAR-10, CIFAR-100 and TinyImageNet datasets, where it is shown that EnD$^2$ can approach the classification performance of an ensemble, and outperforms both standard DNNs and Ensemble Distillation on the tasks of misclassification and out-of-distribution input detection.
研究の動機と目的
- アンサンブルが精度と不確実性推定を改善する理由を動機づけるが、コストがかかる。
- Ensemble Distribution Distillation (EnD2) を、単一モデルにおけるアンサンブルの多様性を保存する方法として定義する。
- 出力分布の分布をモデル化するためにPrior Networksを用いるアプローチを提案する。
- EnD2を人工データと標準のビジョンデータセットで評価し、EnDおよびPNベースラインと比較する。
提案手法
- Dirichletパラメータを用いて、出力分布の分布のサンプルとしてアンサンブル出力をモデル化する。
- Prior Networksを用いて、Dirichlet濃度パラメータを介してカテゴリ分布の分布をパラメータ化する。
- 学習を安定化させるために温度アニーリングを用いたアンサンブル予測から派生した転移データセット上でEnD2モデルを訓練する。
- 転移データセット上のDirichlet分布出力の負の対数尤度を最小化する。
- Dirichlet出力に対してエントロピーと相互情報量を用いて、総不確実性、データ不確実性、知識不確実性を計算する。
- OOD挙動とアンサンブル多様性をよりよく捉えるために、任意で補助データを使用する。
実験結果
リサーチクエスチョン
- RQ1EnD2は、知識不確実性とデータ不確実性の成分を含む、アンサンブルの予測分布を正確に再現できるか。
- RQ2標準的な蒸留と比較して、EnD2はアンサンブルの分類性能を維持しつつ、誤分類とOOD検出を改善するか。
- RQ3補助データがEnD2のキャリブレーション、NLL、OOD検出性能に与える影響は何か。
- RQ4CIFAR-10/100およびTiny ImageNetにおいて、EnD2は従来のEnsemble DistillationおよびPrior Networksとどのように比較されるか。
主な発見
- EnD2は、個々のモデルと比較して、アンサンブルの分類性能をほぼ保持し、誤分類検出を改善する。
- EnD2は、イン-domainデータ上で総不確実性をデータ不確実性と知識不確実性に分解でき、アンサンブルと同様である。
- 補助データを使用する場合、EnD2は一般にOOD検出でEnsemble Distillationと同等かそれを上回る。
- キャリブレーション指標(NLLとECE)はEnD2がしばしば有益であることを示すが、利点はデータセットと補助データの使用によって異なる。
- 補助データを用いたPrior Networks単独は、PRRおよびいくつかのキャリブレーション指標でアンサンブルベースの手法を下回り、EnD2がアンサンブルの多様性を捉える利点を際立たせる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。