QUICK REVIEW

[논문 리뷰] GAT: Generative Adversarial Training for Adversarial Example Detection and Robust Classification

Xuwang Yin, Soheil Kolouri|arXiv (Cornell University)|2019. 05. 27.

Adversarial Robustness in Machine Learning인용 수 23

한 줄 요약

이 논문은 적대적 예제를 탐지하기 위한 원칙적인 방법인 GAT(Generative Adversarial Training)을 제안한다. 이 방법은 적응적이고 노름 제약이 있는 화이트박스 공격에 대해서도 강건성을 유지한다. K개의 이진 분류기를 사용하여 각 클래스의 정상 샘플과 다른 클래스의 적대적 변형 샘플을 구분하도록 훈련하고, 이를 비정규화된 밀도 모델로 해석함으로써 GAT는 강건한 탐지와 생성적 분류를 동시에 가능하게 하여, MNIST에서 평균 $L_2$ 왜곡 개선 폭이 5.65이고 CIFAR-10에서 1.5에 이르는 최신 기술 수준의 성능을 달성한다.

ABSTRACT

The vulnerabilities of deep neural networks against adversarial examples have become a significant concern for deploying these models in sensitive domains. Devising a definitive defense against such attacks is proven to be challenging, and the methods relying on detecting adversarial samples are only valid when the attacker is oblivious to the detection mechanism. In this paper we propose a principled adversarial example detection method that can withstand norm-constrained white-box attacks. Inspired by one-versus-the-rest classification, in a K class classification problem, we train K binary classifiers where the i-th binary classifier is used to distinguish between clean data of class i and adversarially perturbed samples of other classes. At test time, we first use a trained classifier to get the predicted label (say k) of the input, and then use the k-th binary classifier to determine whether the input is a clean sample (of class k) or an adversarially perturbed example (of other classes). We further devise a generative approach to detecting/classifying adversarial examples by interpreting each binary classifier as an unnormalized density model of the class-conditional data. We provide comprehensive evaluation of the above adversarial example detection/classification methods, and demonstrate their competitive performances and compelling properties.

연구 동기 및 목표

의료, 금융, 자율주행 시스템과 같은 안전이 중요한 애플리케이션에서 딥 네트워크의 적대적 예제에 대한 취약성을 해결한다.
공격자가 탐지 메커니즘을 알고 있는 상황에서 실패하는 기존 탐지 방법의 한계를 극복한다.
적대자가 탐지 기반 공격을 회피하도록 맞춤형으로 설계된 공격에 대해서도 높은 성능을 유지하는 원칙적인 탐지 프레임워크를 개발한다.
탐지 프레임워크에서 파생된 생성 모델링을 탐색하여 예측의 해석 가능성과 강건성을 향상시킨다.
GAT로 훈련된 모델이 표준 강건 분류기와 달리 의미 있는 특징을 가진 입력을 생성함으로써 의미 있는 특징을 가진 예측을 생성함을 입증한다.

제안 방법

K개의 클래스 분류 문제에 대해 K개의 이진 분류기를 훈련한다. i번째 분류기는 클래스 i의 정상 샘플과 다른 모든 클래스의 적대적 변형 샘플을 구분하도록 한다.
추론 시, 원본 분류기를 사용해 입력의 레이블 $\hat{k}$를 예측한 후, $\hat{k}$-번째 이진 분류기를 적용하여 입력이 정상인지 적대적인지 판단한다.
각 이진 분류기를 조건부 데이터 분포의 비정규화된 밀도 모델로 해석함으로써 생성 탐지 및 생성 분류가 가능해진다.
적응적 위협 모델 하에서 강건성을 평가하기 위해 다양한 스텝 수와 스텝 크기를 가진 프로젝션 기반 경사 하강(Projection-based Gradient Descent, PGD) 공격을 사용한다.
타겟 공격을 적용하여 적대적 샘플을 생성하고, GAT 기반 모델과 표준 강건 분류기 간의 생성된 입력의 의미적 일관성을 비교한다.
AUC 점수, TPR가 0.95일 때의 FPR, 그리고 훼손된 입력에서의 평균 $L_2$ 왜곡을 사용하여 탐지 강건성과 일반화 능력을 측정한다.

실험 결과

연구 질문

RQ1공격자가 탐지 메커니즘을 알고 있는 적응적 화이트박스 공격 상황에서도 탐지 프레임워크가 효과를 유지할 수 있는가?
RQ2다양한 공격 설정을 가진 PGD 공격 하에서 GAT의 성능은 최신 기술 수준의 탐지 방법과 비교해 어떻게 되는가?
RQ3탐지 프레임워크에서 유도된 생성 모델이 표준 강건 분류기와 비교해 모델 예측의 해석 가능성에 얼마나 기여하는가?
RQ4GAT 기반 모델을 속이기 위해 생성된 적대적 예제는 표준 강건 분류기를 속이는 예제보다 더 많은 의미적 특징을 유지하는가?
RQ5공격 하이퍼파rameter(예: 스텝 크기, 스텝 수)의 차이가 제안된 탐지 방법의 강건성에 어떤 영향을 미치는가?

주요 결과

GAT 방법은 $L_2$-제약이 있는 PGD 공격 하에서 MNIST에서 평균 $L_2$ 왜곡 5.65를 달성하여 이전 최고 기록인 3.68을 초월한다.
CIFAR-10에서는 동일한 평가 프로토콜 하에서 평균 $L_2$ 왜곡 1.5를 기록하여 이전 최고 기록인 1.1을 뛰어넘는다.
PGD 공격 다양한 설정에서 이진 분류기 $d_1$과 $d_2$의 AUC 점수는 각각 0.92 이상, 0.95 이상을 유지하여 강력한 강건성을 입증한다.
생성 탐지 방식은 통합 탐지 및 최신 기술 수준의 방법보다 우수한 성능을 보이며, 특히 복합 공격과 높은 왜곡 한계 조건에서 두드러진다.
GAT 기반 분류기를 속이기 위해 생성된 적대적 샘플은 타겟 클래스의 명확한 의미적 특징을 유지하지만, 표준 강건 분류기를 속이는 샘플은 종종 인식할 수 없는 형태이다.
생성 분류기는 의미적으로 해석 가능한 특징을 가진 입력에서만 높은 로짓 출력을 생성하지만, 소프트맥스 기반 강건 분류기는 난센스 입력에 쉽게 속는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.