QUICK REVIEW

[論文レビュー] Probabilistic Modeling of Deep Features for Out-of-Distribution and Adversarial Detection

Nilesh Ahuja, Ibrahima J. Ndiour|arXiv (Cornell University)|Sep 25, 2019

Adversarial Robustness in Machine Learning参考文献 21被引用数 37

ひとこと要約

本論文は、訓練済みディープニューラルネットワーク(DNN)の深部特徴をクラス条件付きのパラメトリック分布（ガウス分布とガウス混合モデル）でモデル化し、層ごとの対数尤度を用いてOOD（out-of-distribution）サンプルおよび敵対的サンプルを検出するアプローチを提案する。MNIST、CIFAR-10、UCF101の動画データにおいてOODおよび敵対的検出の性能向上を示し、次に次元削減と層別の有効性に関する分析を行う。

ABSTRACT

We present a principled approach for detecting out-of-distribution (OOD) and adversarial samples in deep neural networks. Our approach consists in modeling the outputs of the various layers (deep features) with parametric probability distributions once training is completed. At inference, the likelihoods of the deep features w.r.t the previously learnt distributions are calculated and used to derive uncertainty estimates that can discriminate in-distribution samples from OOD samples. We explore the use of two classes of multivariate distributions for modeling the deep features - Gaussian and Gaussian mixture - and study the trade-off between accuracy and computational complexity. We demonstrate benefits of our approach on image features by detecting OOD images and adversarially-generated images, using popular DNN architectures on MNIST and CIFAR10 datasets. We show that more precise modeling of the feature distributions result in significantly improved detection of OOD and adversarial samples; up to 12 percentage points in AUPR and AUROC metrics. We further show that our approach remains extremely effective when applied to video data and associated spatio-temporal features by detecting adversarial samples on activity classification tasks using UCF101 dataset, and the C3D network. To our knowledge, our methodology is the first one reported for reliably detecting white-box adversarial framing, a state-of-the-art adversarial attack for video classifiers.

研究の動機と目的

安全が要求される領域におけるDNNの信頼できる予測不確実性を動機づける。
訓練後に深部特徴分布をモデル化する生成的アプローチを提案する。
元の分類器を変更せず、層ごとの尤度がOODおよび敵対的検出を可能にするかを評価する。
パラメータ推定における計算トレードオフと次元削減の影響を分析する。

提案手法

複数の層からの深部特徴に対して、多変量ガウス分布（共分散行列を層ごとに分離）またはガウス混合モデルを用いてクラス条件付き分布を適合させる。
パラメータを最大尤度法（平均と共分散）またはGMMのEMで推定し、成分数選択にはBICを用いる。
テストサンプルの層ごとの対数尤度を計算し、それを用いてOOD/敵対的サンプルを検出し、場合によって分類を行う。
共分散の仮定に応じて、マハラノビス距離（共分散を統一）または全対数尤度を使用する。
問題を起こす条件を緩和し計算量を削減するため、平均プーリングとPCAによる次元削減を適用する。
MNISTとCIFAR-10でAUPRとAUROC指標で評価し、UCF101を用いた動画データと敵対的フレーミング攻撃を含めて拡張する。

実験結果

リサーチクエスチョン

RQ1層ごとの深部特徴の確率的モデリングは、ベースラインのソフトマックスベース手法と比較してOODサンプルの検出を改善できるか？
RQ2ガウス分布、共分散を分離したガウス、ガウス混合モデルはいずれも、OOD/敵対的検出における精度と計算コストの異なるトレードオフを提供するか？
RQ3次元削減技術はパラメータ推定と検出性能にどう影響するか？
RQ4このアプローチは動画データで有効か、ホワイトボックスおよびブラックボックスの敵対的フレーミング攻撃に対して有効か？

主な発見

クラス条件付き分布で深部特徴をモデリングすると、同一分布内の分類性能は競合的であり、OOD/敵対的検出が改善される（場合によってはAUPR/AUROCで最大12ポイント上昇）。
共分散を分離したガウスとGMMは検出性能が同程度であり、より一般的なモデルは特に初期層（内部層）でロバスト性を向上させる。
PCAと平均プーリングによる次元削減は、数値条件の悪化を緩和し、検出と分類性能を向上させる。
このアプローチは動画データ（UCF101）およびホワイトボックス・ブラックボックス両方の敵対的フレーミング攻撃に対して有効で、基準に対してAUROC/AUPRを改善する。
検出精度の層ごとの改善は最終層から離れるにつれて大きくなり、内部層の方がよりリッチな分布の恩恵を受けることを示す。
層ごとの対数尤度は、同一分布データに対してソフトマックスと同等の分類精度をもって分類に用いることができる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。