Skip to main content
QUICK REVIEW

[논문 리뷰] A Simple Unified Framework for Detecting Out-of-Distribution Samples and Adversarial Attacks

Kimin Lee, Kibok Lee|arXiv (Cornell University)|2018. 07. 10.
Adversarial Robustness in Machine Learning인용 수 976
한 줄 요약

본 논문은 사전에 학습된 소프트맥스 분류기를 이용하여 OOD 및 적대적 샘플을 탐지하기 위해 DNN 특징 공간에서 공분산-마할라노비스 거리 기반 신뢰도 점수를 도입하고, 입력 전처리와 특징 앙상블 강화를 포함하며, 클래스 증가 학습에 대한 강건성 및 적용 가능성을 보여준다.

ABSTRACT

Detecting test samples drawn sufficiently far away from the training distribution statistically or adversarially is a fundamental requirement for deploying a good classifier in many real-world machine learning applications. However, deep neural networks with the softmax classifier are known to produce highly overconfident posterior distributions even for such abnormal samples. In this paper, we propose a simple yet effective method for detecting any abnormal samples, which is applicable to any pre-trained softmax neural classifier. We obtain the class conditional Gaussian distributions with respect to (low- and upper-level) features of the deep models under Gaussian discriminant analysis, which result in a confidence score based on the Mahalanobis distance. While most prior methods have been evaluated for detecting either out-of-distribution or adversarial samples, but not both, the proposed method achieves the state-of-the-art performances for both cases in our experiments. Moreover, we found that our proposed method is more robust in harsh cases, e.g., when the training dataset has noisy labels or small number of samples. Finally, we show that the proposed method enjoys broader usage by applying it to class-incremental learning: whenever out-of-distribution samples are detected, our classification rule can incorporate new classes well without further training deep models.

연구 동기 및 목표

  • 학습 분포에서 크게 벗어나거나 adversarial하게 교란된 이상 테스트 샘플의 신뢰할 수 있는 탐지를 촉진한다.
  • 가우시안 판별 분석(GDA) 하에 DNN 특징 공간에 단순한 생성 모델 분류기를 제안한다.
  • 사전 학습된 소프트맥스 분류기를 재학습시키지 않고도 탐지를 가능하게 한다.
  • 노이즈가 있는 라벨과 작은 훈련 샘플에 대한 강건성을 향상시킨다.
  • 클래스 평균 및 공유 공분산을 업데이트하여 클래스 증가 학습에 대한 적용 가능성을 보여준다.

제안 방법

  • 경험적 평균과 결합 공분산을 사용하여 DNN penultimate-layer 특징에 대해 결합 공분산을 가진 클래스 조건부 가우시안 분포를 적합시킨다.
  • 마할라노비스 거리 기반 신뢰도 점수 M(x)를 정의한다: M(x) = max_c -(f(x)-mu_c)^T Sigma^{-1}(f(x)-mu_c).
  • GDA 하의 생성 분류기가 소프트맥스 분류기와 일치하며 정확도를 보존함을 정당화한다.
  • M(x)의 기울기 방향으로 x를 섭동시키는 입력 전처리로 성능을 향상시킨다.
  • 여러 네트워크 층에서 M(x)를 계산하고 로지스틱 회귀로 가중치를 학습하여 특징 앙상블로 강건성을 향상시킨다.
  • 새 클래스에 적응하기 위한 간단한 업데이트 규칙을 적용하여 클래스 평균과 공유 공분산을 업데이트함으로써 증가 학습에서 적합하게 한다.

실험 결과

연구 질문

  • RQ1DNN 특징 공간에서의 마할라노비스 거리 기반 점수가 OOD 및 적대적 탐지를 위한 softmax 기반 신뢰도보다 더 우수하게 동작할 수 있는가?
  • RQ2다층 특징과 입력 전처리의 결합이 노이즈 및 제한된 데이터 하에서 탐지 강인성을 향상시키는가?
  • RQ3동일한 프레임워크가 전체 모델 재학습 없이 클래스 증가 학습을 지원할 수 있는가?
  • RQ4하이퍼파라미터가 오직 분포 내 데이터(in-distribution) 또는 적대적 데이터로만 조정될 때 접근법이 강건한가?
  • RQ5다양한 데이터세트와 아키텍처(CIFAR-10/100, SVHN, ImageNet, LSUN 등)에서 방법의 성능은 어떠한가?

주요 결과

  • 마할라노비스 기반 점수는 여러 데이터셋에 걸친 OOD 및 적대적 탐지에서 softmax 기반 기준선 및 경쟁 탐지기(예: ODIN, LID)보다 우수하다.
  • 입력 전처리와 특징 앙상블은 탐지 성능을 크게 향상시키며, 95% TPR에서의 높은 TNR 및 강한 AUROC를 포함한다.
  • 이 탐지기는 노이즈가 있는 라벨과 작은 훈련 세트에서도 강건하며, 분포 내 데이터 또는 FGSM 적대적 데이터만으로도 조정될 수 있다.
  • 이 방법은 새로운 클래스를 수용하기 위해 클래스 평균과 공유 공분산을 업데이트하여 딥 모델 재학습 없이 클래스 증가 학습을 지원한다.
  • 이 방법은 여러 쌍에서 OOD 탐지에 대해 최첨단 성능을 달성하고 (예: CIFAR-10 대 LSUN/TinyImageNet), 적대적 공격(FGSM, BIM, DeepFool, CW)에서도 최상위 성능을 기록한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.