[논문 리뷰] Towards the first adversarially robust neural network model on MNIST
논문은 MNIST가 아직 적대적 강건성에 대해 해결되지 않았다고 주장하고, Analysis by Synthesis (ABS)를 도입하여 class-conditional VAE로 L0, L2, L∞ 공격에 대해 최첨단 강건성을 달성하며 의미론적으로 의미 있는 적대적 예를 제공한다.
Despite much effort, deep neural networks remain highly susceptible to tiny input perturbations and even for MNIST, one of the most common toy datasets in computer vision, no neural network model exists for which adversarial perturbations are large and make semantic sense to humans. We show that even the widely recognized and by far most successful defense by Madry et al. (1) overfits on the L-infinity metric (it's highly susceptible to L2 and L0 perturbations), (2) classifies unrecognizable images with high certainty, (3) performs not much better than simple input binarization and (4) features adversarial perturbations that make little sense to humans. These results suggest that MNIST is far from being solved in terms of adversarial robustness. We present a novel robust classification model that performs analysis by synthesis using learned class-conditional data distributions. We derive bounds on the robustness and go to great length to empirically evaluate our model using maximally effective adversarial attacks by (a) applying decision-based, score-based, gradient-based and transfer-based attacks for several different Lp norms, (b) by designing a new attack that exploits the structure of our defended model and (c) by devising a novel decision-based attack that seeks to minimize the number of perturbed pixels (L0). The results suggest that our approach yields state-of-the-art robustness on MNIST against L0, L2 and L-infinity perturbations and we demonstrate that most adversarial examples are strongly perturbed towards the perceptual boundary between the original and the adversarial class.
연구 동기 및 목표
- 현재 방어 하에서 MNIST의 적대적 강건성이 여전히 해결되지 않았음을 보여준다.
- 분석에 의해 생성(ABS)과 클래스 조건부 분포를 기반으로 한 강건한 분류 모델을 제안한다.
- 인스턴스-특정 강건성 보장과 강력한 공격 평가를 제공한다.
- ABS가 인간의 지각 경계에 가까운 의미론적으로 의미 있는 적대적 예를 생성한다는 것을 보여준다.
제안 방법
- 각 클래스마다 p(x|y)인 별도의 VAE를 학습하여 클래스 조건부 데이터 분포를 학습한다.
- 잠재 공간에서 경사하강을 수행하여 각 클래스에 대한 로그가능도에 대한 인스턴스-특정 하한(ell_y*)을 계산한다.
- 클래스 조건부 softmax를 exp(alpha ell_y*)에 대해 적용하고, out-of-distribution 입력에서 과신하는 판단을 피하기 위해 작은 오프셋 eta를 둔다.
- 선택적으로 픽셀 이진화와 판별적 미세조정(Binary ABS)을 적용하여 강건성과 정확도를 향상시킨다.
- 다양한 적대적 공격(경사 기반, 점수 기반, 의사 결정 기반, 전달 기반)을 개발·적용하고, 새로운 Latent Descent 공격과 새로운 L0 의사 결정 기반 공격을 포함한다.
- 강건성에 대한 해석적 한계( epsilon )를 제공하고 Madry식 적대적 학습과 비교한다.
실험 결과
연구 질문
- RQ1클래스 조건부 데이터 분포를 사용하는 분석에 의한 생성 모델이 MNIST에서 최첨단 방어를 넘어서는 적대적 강건성을 향상시킬 수 있는가?
- RQ2여러 가지 적대적 위협 모델(L0, L2, L∞)에서 인스턴스-특정 강건성 보장이 어떻게 작동하는가?
- RQ3ABS의 적대적 예가 의미론적 의미를 가지며 인간의 지각과 일치하는가, 이전 방어와 비교하여?
- RQ4이진화와 판별적 미세조정이 강건성과 정확도에 미치는 영향은 무엇인가?
주요 결과
- ABS는 L0, L2, L∞ 교란에 걸쳐 MNIST에서 최첨단 강건성을 달성한다.
- L2의 경우, ABS는 중간 적대적 거리에서 모든 다른 모델을 능가한다.
- L∞에서 Binary ABS는 중간 교란 크기에서 최첨단이며, 임계값이 지각된 강건성에 영향을 준다.
- L0에서 ABS 및 Binary ABS는 Madry 등 방어를 포함한 다른 모든 모델보다 강건하다.
- 하한 강건성 추정은 ABS μ-L2 강건성 ε ≈ 0.690 ± 0.005 (평균) 및 Binary ABS ≈ 0.601 ± 0.005 under L2 (mean, MNIST) 를 나타낸다.
- ABS의 적대적 예는 의미론적으로 의미가 있으며 원본 클래스와 적대적 클래스 사이의 지각 경계에 위치한다.
- 저자들은 광범위한 공격 평가(latents, decision-based, transfer-based, gradient-based)를 제공하고 강건성 평가의 한계를 인정한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.