QUICK REVIEW

[논문 리뷰] Defense-GAN: Protecting Classifiers Against Adversarial Attacks Using Generative Models

Pouya Samangouei, Maya Kabkab|arXiv (Cornell University)|2018. 05. 17.

Adversarial Robustness in Machine Learning인용 수 593

한 줄 요약

Defense-GAN은 분류 전에 입력을 생성기의 범위로 투영하기 위해 Wasserstein GAN을 사용하여 적대적 섭동을 제거하고 분류기를 변경하지 않으면서 화이트박스와 블랙박스 공격에 방어합니다.

ABSTRACT

In recent years, deep neural network approaches have been widely adopted for machine learning tasks, including classification. However, they were shown to be vulnerable to adversarial perturbations: carefully crafted small perturbations can cause misclassification of legitimate images. We propose Defense-GAN, a new framework leveraging the expressive capability of generative models to defend deep neural networks against such attacks. Defense-GAN is trained to model the distribution of unperturbed images. At inference time, it finds a close output to a given image which does not contain the adversarial changes. This output is then fed to the classifier. Our proposed method can be used with any classification model and does not modify the classifier structure or training procedure. It can also be used as a defense against any attack as it does not assume knowledge of the process for generating the adversarial examples. We empirically show that Defense-GAN is consistently effective against different attack methods and improves on existing defense strategies. Our code has been made publicly available at https://github.com/kabkabm/defensegan

연구 동기 및 목표

클래시파이어가 화이트박스 및 블랙박스 위협 모델 전반에서 적대적 섭동에 취약하다는 점을 동기화한다.
Classifier를 수정하지 않고 GAN의 생성 범위로 입력을 투영함으로써 공격 모델에 의존하지 않는 방어를 제안한다.
일반 데이터셋에서의 방어 강건성을 시연하고 기존 방어와 비교한다.
GAN 기반 재구성이 탐지 및 다양한 공격 전략에서의 강건성에 미치는 영향을 탐구한다.

제안 방법

합법적 데이터에 대해 데이터 분포를 모델링하기 위해 Wasserstein GAN을 훈련한다.
추론 시, gradient descent를 이용해 min_z ||G(z) − x||^2를 L 단계와 R개의 무작위 재시작으로 해결하여 x를 생성기의 범위에 투영한다.
재구성된 출력 G(z*)를 원 입력 대신 분류기에 공급한다.
선택적으로 재구성 이미지(Defense-GAN-Rec)에서 혹은 원래 이미지(Defense-GAN-Orig)에서 분류기를 훈련시킨다.
Defense-GAN을 MagNet 및 FGSM, RAND+FGSM, CW 공격에 대해 블랙박스 및 화이트박스 설정에서 비교한다.

실험 결과

연구 질문

RQ1Defense-GAN이 대상 분류기를 수정하지 않고도 화이트박스와 블랙박스 공격 모두에 대해 견고한 보호를 제공할 수 있는가?
RQ2GAN 생성기 범위로 입력을 투영하는 것이 합법적 이미지 품질을 보존하면서 적대적 섭동을 효과적으로 제거하는가?
RQ3Defender의 하이퍼파라미터( GD 단계 수 L 및 무작위 재시작 R) 가 강건성 및 계산 비용에 어떤 영향을 미치는가?
RQ4Defense-GAN이 다양한 데이터셋 및 공격 방법에서 기존 방어(Mark ex 포함) 대비 어떤 성능 차이가 있는가?
RQ5재구성 오차 신호를 통한 공격 탐지가 가능하게 하는가?

주요 결과

Defense-GAN은 MNIST 및 Fashion-MNIST에서 일반적인 적대적 공격에 대해 기본 방어보다 견고성을 지속적으로 향상시켰다.
방어는 화이트박스와 블랙박스 공격 설정 모두에서 효과적이며 분류기 구조를 수정할 필요가 없다.
GD 반복 횟수와 무작위 재시작의 수에 따라 성능이 달라지며, 일반적으로 더 큰 값이 견고성을 향상시키지만 추론 시간은 증가한다.
GAN 재구성을 통한 투영 기반의 노이즈 제거는 재구성 오차 기반 지표를 통해 적대적 예제를 탐지하는 데 사용할 수 있다.
Defense-GAN은 특정 강력한 화이트박스 공격(CW 등)에 대해 adversarial training보다 우수한 성능을 보이며 다양한 공격 전략에 대해 더 넓은 방어를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.