QUICK REVIEW

[論文レビュー] Packed-Ensembles for Efficient Uncertainty Estimation

Olivier Laurent, Adrien Lafage|arXiv (Cornell University)|Oct 17, 2022

Anomaly Detection Techniques and Applications被引用数 10

ひとこと要約

この論文では、グループ化畳み込みを用いて複数の独立したサブネットワークを1つの共有バックボーンにパックする計算効率の高い深層学習アーキテクチャ、Packed-Ensembles (PE) を導入する。これにより、パrameter数と推論時間を削減しながら、Deep Ensembles (DE) と同等の高精度な不確実性推定が可能となる。PEは、最小限のハードウェアオーヘッドで、精度、キャリブレーション、分布外検出、分布シフトへのロバストネスの面で最先端の性能を達成する。

ABSTRACT

Deep Ensembles (DE) are a prominent approach for achieving excellent performance on key metrics such as accuracy, calibration, uncertainty estimation, and out-of-distribution detection. However, hardware limitations of real-world systems constrain to smaller ensembles and lower-capacity networks, significantly deteriorating their performance and properties. We introduce Packed-Ensembles (PE), a strategy to design and train lightweight structured ensembles by carefully modulating the dimension of their encoding space. We leverage grouped convolutions to parallelize the ensemble into a single shared backbone and forward pass to improve training and inference speeds. PE is designed to operate within the memory limits of a standard neural network. Our extensive research indicates that PE accurately preserves the properties of DE, such as diversity, and performs equally well in terms of accuracy, calibration, out-of-distribution detection, and robustness to distribution shift. We make our code available at https://github.com/ENSTA-U2IS/torch-uncertainty.

研究の動機と目的

限られたハードウェアリソースを有するリアルワールドの安全クリティカルシステムにおけるDeep Ensembles (DE) の高い計算コストを軽減すること。
DEが持つ予測不確実性と多様性の性質を維持しつつ、モデルサイズと推論時間を著しく削減すること。
標準的なニューラルネットワークのメモリと計算制約内で動作する構造的で軽量なアンサンブルアーキテクチャを設計すること。
Packed-Ensemblesが、精度、キャリブレーション、OOD検出、分布シフトへのロバストネスの面でDEと同等またはそれを上回ることを実証すること。

提案手法

Packed-Ensemblesは、1つのバックボーンを複数の独立したサブネットワークにグループ化畳み込みで分割し、それぞれに非共有重みを割り当てる。
各サブネットワークは共有バッチデータを用いてエンドツーエンドで訓練され、並列推論とパrameter数の削減が可能になる。
性能を損なわずにトレーニングと推論をさらに高速化するために、ミックス精度トレーニングを活用する。
サブネットワークはアンサンブルの検証精度に基づいて全体として選択され、最適な集団的性能が保証される。
アーキテクチャは、グループ化畳み込みを用いた構造的スパarsityパターンとして形式化され、超パramータα（幅スケーリング）、M（サブネットワーク数）、γ（グループ数）を含む。
1回のフォワードパスで全サブネットワークの予測が計算可能であり、コストの僅か数分の1で完全なアンサンブルに類似した動作を実現する。

実験結果

リサーチクエスチョン

RQ11つのニューラルネットワークアーキテクチャが、大幅に少ないパrameter数と短い推論時間で、Deep Ensemblesと同等の不確実性推定性能を達成できるか？
RQ2グループ化畳み込みを用いて独立したサブネットワークを構築することで、Deep Ensemblesが持つ多様性と予測不確実性の性質が保持されるか？
RQ3Packed-Ensemblesは、分布シフトや分布外検出において、DEや他の効率的ベースラインと比較してどのように性能を発揮するか？
RQ4Packed-Ensemblesは、完全なDEよりも少ないパrameter数であっても、複数のランダムシードに対して高い安定性と低分散を維持できるか？

主な発見

Packed-EnsemblesはCIFAR-100で最先端の不確実性推定を達成し、精度（90.0%）とキャリブレーション（ECE 0.0087）でDeep Ensemblesと同等の性能を示したが、パrameter数はわずか23.6Mにまで削減された。
ImageNet-1kでは、PE-(3,4,1)が59.1Mパrameterと9.29Gの乗加算を要し、効率性と性能の両面でResNeXt-50（90.4%精度）とMIMO（94.9% AUC）を上回った。
分布シフト（CIFAR-100-C）下でも、Packed-Ensemblesは最高の精度（深刻度5で85.2%）と最低のECE（0.021）を維持し、DEおよびResNeXt-50を上回った。
回帰タスクでは、Packed-EnsemblesはUCIデータセットすべてでRMSEとNLLの値がDeep Ensemblesとほぼ同一であり、RMSE差が0.05以内、NLL差が0.05以内に収まった。
予測の分散は、Packed-Ensemblesで0.19%に著しく低減されたのに対し、単一DNNでは0.68%、Deep Ensemblesでは0.43%であったため、安定性の向上が示された。
実験的結果から、ランダム重み初期化と確率的最適化が、共有バッチであっても多様なサブネットワークを生成するのに十分であることが確認され、本手法の設計が妥当であることが裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。