QUICK REVIEW

[논문 리뷰] Are Generative Classifiers More Robust to Adversarial Attacks?

Yingzhen Li, Bradshaw, John|arXiv (Cornell University)|2018. 02. 19.

Adversarial Robustness in Machine Learning참고 문헌 57인용 수 26

한 줄 요약

이 논문은 변분 자동차오디터(VAE)를 사용하여 클래스 조건부 데이터 분포를 모델링하고 분류를 위해 베이지안 추론을 적용하는 딥 제네레이티브 분류기인 Deep Bayes를 제안한다. 이는 제네레이티브 분류기가 특히 만곡 외 입력을 거부하는 가능도 기반 탐지 방법과 결합할 경우, 판별적 분류기보다 적대적 공격에 더 강건하다는 것을 보여준다.

ABSTRACT

There is a rising interest in studying the robustness of deep neural network classifiers against adversaries, with both advanced attack and defence techniques being actively developed. However, most recent work focuses on discriminative classifiers, which only model the conditional distribution of the labels given the inputs. In this paper, we propose and investigate the deep Bayes classifier, which improves classical naive Bayes with conditional deep generative models. We further develop detection methods for adversarial examples, which reject inputs with low likelihood under the generative model. Experimental results suggest that deep Bayes classifiers are more robust than deep discriminative classifiers, and that the proposed detection methods are effective against many recently proposed attacks.

연구 동기 및 목표

제네레이티브 분류기(라벨을 조건으로 한 입력의 조건부 분포를 모델링하는 방식)가 판별적 분류기보다 적대적 공격에 더 강건한가를 조사하는 것.
이미지 분류 과제에서 전통적인 제네레이티브 모델(예: 나이브 베이즈)의 성능이 열악한 점을 해결하기 위해 깊이 있는 잠재변수 모델(LVM) 프레임워크를 도입하는 것.
제네레이티브 모델의 가능도와 분류기 신뢰도 기반으로 적대적 예외를 탐지하는 효과적인 탐지 메커니즘을 개발하는 것.
다양한 $\epsilon$-제한된 적대적 공격(화이트박스 및_BLK박스 변형 포함)에 대해 제안된 방법의 강건성을 평가하는 것.
제네레이티브 및 판별적 특징을 융합하여 딥 러닝 모델의 강건성을 향상시키는 실용적 유용성을 입증하는 것.

제안 방법

조건부 깊이 있는 잠재변수 모델(LVM)을 사용하여 $p(\bm{x}|\bm{y})$를 변분 자동차오디터(VAE) 프레임워크로 모델링하는 딥 베이즈 분류기(DB)를 제안한다.
베이즈의 법칙을 근사하기 위해 중요도 샘플링을 활용한다: $p(\bm{y}|\bm{x}) \propto \mathbb{E}_{q(\bm{z}|\bm{x})}[p(\bm{x}|\bm{y}, \bm{z})p(\bm{y})]$.
세 가지 적대적 탐지 방법을 도입한다: (1) $p(\bm{x}|\bm{y}_c)$ 기반 가능도 임계값 설정, (2) 로짓 기반 신뢰도 점수, (3) KL 발산 기반 거부.
재구성 기반 경사 하강법(SGVB)과 재구성 기반 경사 하강법을 사용하여 VAE를 훈련하여 변분 하한을 최적화한다.
딥 판별적 특징(예: VGG16에서 유도된 것)과 Deep Bayes 모델의 제네레이티브 특징을 융합하여 강건성을 향상시킨다.
표준 적대적 공격(FGSM, PGD, MIM)을 적용하고 $\ell_\infty$ 변형에 대한 정상 및 적대적 정확도를 통해 강건성을 평가한다.

실험 결과

연구 질문

RQ1제네레이티브 분류기가 판별적 분류기보다 적대적 공격에 더 강건한가, 특히 만곡 외 가정 하에서 그렇다면?
RQ2학습된 잠재 표현을 가진 깊이 있는 제네레이티브 모델이 전통적인 제네레이티브 모델(예: 나이브 베이즈)보다 이미지 분류 과제에서 성능이 뛰어나면서도 강건성을 유지할 수 있는가?
RQ3가능도 기반 및 신뢰도 기반 탐지 방법이 적대적 예외를 식별하는 데 얼마나 효과적인가?
RQ4제네레이티브 및 판별적 특징을 융합하면 표준 벤치마크에서 강력한 적대적 공격에 대해 강건성이 향상되는가?
RQ5화이트박스 및 블랙박스 공격 환경에서 Deep Bayes의 강건성은 베이지안 신경망 및 기타 방어 기법과 비교해 어떻게 되는가?

주요 결과

MNIST에서 Deep Bayes 분류기(DBX-128)는 $\epsilon = 0.5$인 $\ell_\infty$ FGSM 공격 하에서 98.6%의 테스트 정확도를 기록했으며, 기준 VGG16보다 뚜렷이 뛰어나다.
CIFAR-10 이진 분류 과제에서 융합 모델(DBX-128)은 $\epsilon = 8/255$인 PGD 공격 하에서 98.4%의 정확도를 기록했으며, VGG16 기준보다 뛰어나다.
가능도 기반 탐지 방법은 MNIST에서 $\epsilon = 0.3$일 때 적대적 성공률을 1% 이하로 낮춰 강력한 거부 능력을 보였다.
GBZ-128 및 GBY-128 변종은 $\epsilon = 0.5$인 MIM 공격 하에서 MNIST에서 98% 이상의 정확도를 기록해 다양한 공격 유형에 대한 강건성을 입증했다.
출력 신뢰도 기반 탐지 방법(TP 마진)은 $\epsilon = 0.1$인 FGSM 공격 하에서 MNIST에서 적대적 정확도를 41.5%로 낮춰 저신뢰도 적대적 입력을 효과적으로 식별함을 보였다.
VGG16의 판별적 특징과 Deep Bayes의 제네레이티브 특징을 융합함으로써 CIFAR-10에서 PGD 공격($\epsilon = 8/255$)에 대해 92.7%의 정확도를 기록했으며, 기준 VGG16의 84.8%보다 높았다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.