QUICK REVIEW

[논문 리뷰] PixelDefend: Leveraging Generative Models to Understand and Defend against Adversarial Examples

Yang Song, Taesup Kim|arXiv (Cornell University)|2017. 10. 30.

Adversarial Robustness in Machine Learning인용 수 338

한 줄 요약

PixelDefend는 PixelCNN 생성 모델을 사용하여 적대적 이미지를 탐지하고 정화하며 입력을 학습 분포로 되돌려 모델- 및 공격에 의존하지 않는 방식으로 분류기 정확도를 회복합니다.

ABSTRACT

Adversarial perturbations of normal images are usually imperceptible to humans, but they can seriously confuse state-of-the-art machine learning models. What makes them so special in the eyes of image classifiers? In this paper, we show empirically that adversarial examples mainly lie in the low probability regions of the training distribution, regardless of attack types and targeted models. Using statistical hypothesis testing, we find that modern neural density models are surprisingly good at detecting imperceptible image perturbations. Based on this discovery, we devised PixelDefend, a new approach that purifies a maliciously perturbed image by moving it back towards the distribution seen in the training data. The purified image is then run through an unmodified classifier, making our method agnostic to both the classifier and the attacking method. As a result, PixelDefend can be used to protect already deployed models and be combined with other model-specific defenses. Experiments show that our method greatly improves resilience across a wide variety of state-of-the-art attacking methods, increasing accuracy on the strongest attack from 63% to 84% for Fashion MNIST and from 32% to 70% for CIFAR-10.

연구 동기 및 목표

적대적 예제를 순전히 분류기 결함이 아니라 데이터 분포의 이상치로서 연구하도록 동기를 부여한다.
감지할 수 없는 적대적 perturbation이 학습 분포의 저확률 영역에 주로 위치한다고 가정한다.
분류기- 및 공격-독립적인 탐지 및 정화 기법을 개발한다.
정화가 기존 방어와 결합되어 강건성을 높일 수 있음을 보여준다.
벤치마크 데이터셋에서 다양한 공격에 대한 최신 수준의 강건성을 시연한다.

제안 방법

깨끗한 학습 데이터에서 PixelCNN 생성 모델을 학습시켜 이미지에 대한 데이터 분포 p(X)를 추정한다.
가능도를 사용하여 순열 검정에 기반한 p-값을 산출하는 통계적 검정을 통해 적대적 입력을 탐지한다.
PixelDefend를 제안한다: 그리디 디코딩 절차를 사용하여 ε_defend 이웃 내에서 PixelCNN 모델 하에서 더 높은 확률로 향하도록 입력을 정화한다.
생성 모델에 따른 입력의 확률에 기반해 epsilon_defend를 조정하여 깨끗한 이미지에 대한 영향을 최소화하는 적응형 변형을 제공합니다.
분류기를 수정하지 않는다; PixelDefend는 모델- 및 공격-독립적이며 적대적 학습 또는 다른 방어와 결합될 수 있다.
Fashion-MNIST 및 CIFAR-10에서 ResNet 및 VGG 분류기를 사용하여 RAND, FGSM, BIM, DeepFool, CW 등 다양한 공격에 대해 평가한다.

실험 결과

연구 질문

RQ1적대적 예제가 신경 밀도 모델에 의해 추정된 학습 분포의 저확률 영역에 주로 위치하는가?
RQ2생성 모델 기반 탐지기( p-값을 통해) 가 다양한 공격 방법에 걸쳐 신뢰성 있게 적대적 입력을 식별할 수 있는가?
RQ3공격자나 분류기를 모르는 상태에서도 학습 분포의 고밀도 영역으로 이미지를 정화하여 강한 공격에 대한 분류기 정확도를 회복할 수 있는가?
RQ4PixelDefend가 다른 방어와 결합될 때 데이터셋과 공격 유형에 걸쳐 의미 있게 강건성을 향상시키는가?
RQ5PixelDefend 파이프라인에 대해 엔드-투-엔드 미분 가능한 공격이 가능한가, 가능하다면 그 효과는 어느 정도인가?

주요 결과

적대적 예제는 일반적으로 깨끗한 이미지보다 PixelCNN 가능도가 여러 차수로 낮다.
PixelCNN 가능도를 이용한 p-값 탐지는 광범위한 공격에 걸쳐 적대적 입력을 높은 확률로 구분할 수 있다.
PixelDefend 정화는 교란된 이미지를 고밀도 영역으로 이동시키고, 기존 분류기와 결합될 때 강한 공격 하에서 정확도를 현저히 향상시킨다(예: Fashion-MNIST에서 가장 강한 공격의 정확도 63%에서 84%로, CIFAR-10에서 32%에서 70%로).
PixelDefend는 모델- 및 공격-독립적이며 적대적 학습과 호환되고 분류기를 수정하지 않고도 강건성을 높인다.
전체 PixelDefend 파이프라인을 겨냥한 엔드-투-엔드 적대적 공격은 설계하기 어렵고, 반복적인 그래디언트 기반 공격은 실제로 효과적인 섭 perturbations를 찾지 못하는 경우가 많다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.