QUICK REVIEW

[論文レビュー] A Simple Unified Framework for Detecting Out-of-Distribution Samples and Adversarial Attacks

Kimin Lee, Kibok Lee|arXiv (Cornell University)|Jul 10, 2018

Adversarial Robustness in Machine Learning被引用数 976

ひとこと要約

本論文は、事前学習済みの softmax 分類器を用いて、DNN特徴空間におけるマハラノビス距離に基づく信頼度スコアを導入し、OODおよび敵対的サンプルを検出する。入力前処理と特徴アンサンブルの強化を伴い、堅牢性とクラスインクリメンタル学習への適用性を示す。

ABSTRACT

Detecting test samples drawn sufficiently far away from the training distribution statistically or adversarially is a fundamental requirement for deploying a good classifier in many real-world machine learning applications. However, deep neural networks with the softmax classifier are known to produce highly overconfident posterior distributions even for such abnormal samples. In this paper, we propose a simple yet effective method for detecting any abnormal samples, which is applicable to any pre-trained softmax neural classifier. We obtain the class conditional Gaussian distributions with respect to (low- and upper-level) features of the deep models under Gaussian discriminant analysis, which result in a confidence score based on the Mahalanobis distance. While most prior methods have been evaluated for detecting either out-of-distribution or adversarial samples, but not both, the proposed method achieves the state-of-the-art performances for both cases in our experiments. Moreover, we found that our proposed method is more robust in harsh cases, e.g., when the training dataset has noisy labels or small number of samples. Finally, we show that the proposed method enjoys broader usage by applying it to class-incremental learning: whenever out-of-distribution samples are detected, our classification rule can incorporate new classes well without further training deep models.

研究の動機と目的

訓練分布から大きく外れた異常なテストサンプルや敵対的に摂動されたサンプルの信頼性の高い検出を動機づける。
ガウス判別分析(GDA)の下でDNN特徴空間における単純な生成モデル分類器を提案する。
事前学習済みの softmax分類器を再学習させることなく検出を可能にする。
ノイズの多いラベルや小規模な訓練データに対する堅牢性を向上させる。
クラス平均と共有共分散を更新することにより、クラスインクリメンタル学習への適用性を示す。

提案手法

経験的平均とプールされた共分散を用いて、DNNのpenultimate-layer特徴に対して結合共分散を持つクラス条件付きガウスを適合させる。
マハラノビス距離に基づく信頼度スコア M(x) を次のように定義する: M(x) = max_c -(f(x)-mu_c)^T Sigma^{-1}(f(x)-mu_c).
GDAのもとでの生成分類器がsoftmax分類器と整合し、精度を維持することを正当化する。
M(x)の勾配に沿ってxを摂動させる入力前処理によって性能を向上させる。
複数のネットワーク層でM(x)を計算し、ロジスティック回帰で重みを学習することで特徴アンサンブルによる堅牢性を高める。
クラスの平均と共有共分散を更新して新しいクラスに対応する、インクリメンタル学習のための単純な更新則を適用する。

実験結果

リサーチクエスチョン

RQ1DNN特徴空間におけるマハラノビス距離ベースのスコアは、OODおよび敵対的検出においてsoftmaxベースの信頼度を上回ることができるか。
RQ2複数層の特徴と入力前処理を組み合わせることで、ノイズやデータ不足の下で検出の堅牢性が向上するか。
RQ3同じフレームワークは、全モデルを再学習させることなくクラスインクリメンタル学習をサポートできるか。
RQ4ハイパーパラメータが分布内データまたは敵対的データだけを用いて調整された場合、アプローチは堅牢か。
RQ5多様なデータセットとアーキテクチャ（例：CIFAR-10/100、SVHN、ImageNet、LSUN）で手法はどのように性能を示すか。

主な発見

マハラノビスベースのスコアは、複数のデータセットに渡るOODおよび敵対的検出のいずれにおいても、softmaxベースのベースラインや競合検出器（例：ODIN、LID）を上回る。
入力前処理と特徴アンサンブルは検出性能を大幅に向上させ、95% TPRでの高いTNRや強いAUROCを含む。
本検出器はノイズのあるラベルや小さな訓練データの下でも堅牢であり、分布内データまたは FGSM敵対的データのみで調整可能である。
この方法は、深層モデルの再学習なしに新しいクラスを取り込むよう、クラス平均と共有共分散を更新することでクラスインクリメンタル学習をサポートする。
いくつかの組み合わせ（例：CIFAR-10 vs. LSUN/TinyImageNet）でのOOD検出および敵対的攻撃（FGSM、BIM、DeepFool、CW）において最先端の結果を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。